定义
增量测试是一种实验方法,用于分离广告的因果效应——也就是因为看了广告才发生的转化,而非只是恰好与广告同时发生的转化。它不像末次点击或多触点归因那样给每一次接触广告的转化都记功,而是对一个随机对照组不投放广告,再衡量曝光组与对照组之间的提升(lift)。两者之差就是若不花这笔预算你会损失的增量转化。
所在链路
设计实验 → 将受众随机拆分为曝光组与对照组(holdout)→ 仅向曝光组投放广告 → 测量两组的转化 → 提升(曝光组减对照组)= 真实增量影响 → 将预算重新分配到真正有提升的渠道
为什么重要
大多数归因模型会系统性地把转化过度记功给那些本来就会转化的人——品牌词搜索、再营销和忠实客户人群在末次点击仪表盘上看起来非常亮眼,实际却几乎没有带来真实增收。增量测试是区分「带来销售的广告」和「只是抢功的广告」的唯一方法,在信号丢失让确定性归因越来越不可靠的当下,它愈发不可或缺。
归因回答不了的那个问题
打开任何广告平台的仪表盘,你都会看到转化被整齐地记到各个广告系列、人群和关键词头上。可你看不到那个真正重要的数字:这些转化里,有多少本来就会发生、根本不需要广告。这个缺口才是问题所在。一个追着「已加购但还没付款」用户跑的再营销广告,会报出一份漂亮的回报——但其中大部分人本来就会回来。广告抢了功劳,却没有创造这笔销售。
增量测试就是为了回答归因刻意回避的问题:这笔花费到底带来了什么? 它不在事后分配功劳,而是做一场实验。你对一个随机对照组(holdout)不投放广告,对其余所有人正常投放。曝光组比对照组多出来的转化,就是你的增量提升;其余的转化本来就会发生。
对照组测试怎么做
它的机制刻意保持简单,因为严谨性来自随机化,而不是复杂的数学。
- 确定人群和指标。 选定要测试的受众,以及你关心的转化——购买、安装、注册。
- 随机拆分。 把一部分(常见为 10%–20%)划为对照组,不看任何广告。拆分必须随机,这样两组在其他方面才完全可比。
- 只对曝光组投放,并持续足够长的时间,让两组都积累出有意义的转化量。
- 测量提升。 曝光组转化减去对照组转化,经适当折算后,就是增量效应。
两种常见设计让它落地:地理测试整块地保留某些地区不投放,适合无法在用户层面屏蔽广告的场景;人群或 ghost-bid 测试则在支持的平台里于个体层面保留对照。无论哪种,原理都一样:留一个没看到广告、但其余可比的群体。
如果你还在梳理功劳如何在你的体系中流动,先看归因和转化跟踪入门,而闭环测量讲清了如何把曝光与真实结果对上。
为什么实测提升几乎总是小于仪表盘
团队第一次做增量测试往往会学到一个不舒服的教训:平台上报的 ROAS 高估了现实,有时高估很多。品牌词搜索、再营销,以及「现有客户相似人群」是惯犯,因为它们瞄准的本就是接近转化的人。这些广告系列漂亮的末次点击 ROAS,常常掩盖了极低甚至接近零的增量回报。
这不是恐慌的理由,恰恰是要测试的理由。目的不是证明广告没用,而是找出哪些广告真正有效,把预算挪过去。一个仪表盘 ROAS 平平、但增量提升很高的渠道,比一条只在收割存量需求的花哨再营销,更值得加预算。
把规模定对,答案才靠谱
最常见的失败,是测试规模太小,什么结论都得不出。开始前先定好你的最小可检测提升——值得据此行动的最小改善幅度——再据此设定对照组规模,让你能把这个提升从噪声中区分出来。一个以「提升 4%,正负 9%」收尾的测试等于什么都没说。给它足够的量和时间去抹平正常的周与周波动,并克制住一看到数字好看就提前停手的冲动。
把曝光与转化数据导入一个干净、受治理的数据集,分析才可信。像 RudderStack 这样的仓库原生管道、像 PostHog 这样的产品分析层,或 Google Analytics 4,都能撑起测量这一侧。要系统地走一遍付费媒体的端到端测量,付费获取路线梳理了这些环节如何衔接。
常见问题
增量测试和平台自带的 lift 研究是一回事吗? 不一定。有些平台的「lift」报告用的是真正的随机对照组,有些则把曝光用户和一个松散匹配的群体对比,这又把你想消除的偏差带了回来。信任那个数字前,先确认是否真的保留了一个随机对照组。
测试该跑多久? 要长到两组都积累出有统计意义的转化量,并抹平每周的季节性——对低频转化往往要几周。决定时长的是转化量,而不是日历。
该先测什么? 从你最怀疑被过度记功的渠道开始——通常是再营销或品牌词搜索。上报 ROAS 与增量 ROAS 之间的差距在这些渠道往往最大,得到一个清晰答案的回报也最高。
新手常见误区
- 把归因提升和增量提升当成一回事——平台自家的「lift」报告往往仍在没有真正随机对照组的情况下给曝光用户记功
- 样本量或测试时长不足,导致测得的提升在统计上无法与噪声区分开
- 对照组与曝光组本身就不可比,使结果在测试开始前就已存在偏差