实用计算器
A/B 测试显著性计算器
输入对照组和实验组的访客数与转化数,本工具在浏览器内完成双比例 z 检验,输出两组转化率、相对提升幅度、双尾 p 值,并按 95% 置信度给出是否显著的明确结论。当结果尚不显著时,还会按当前观察到的提升幅度估算每组所需的最小样本量(80% 统计功效),帮你判断该继续跑测试还是提前结束。适合落地页优化、广告素材测试和 CRO 从业者使用。
实用计算器
输入对照组和实验组的访客数与转化数,本工具在浏览器内完成双比例 z 检验,输出两组转化率、相对提升幅度、双尾 p 值,并按 95% 置信度给出是否显著的明确结论。当结果尚不显著时,还会按当前观察到的提升幅度估算每组所需的最小样本量(80% 统计功效),帮你判断该继续跑测试还是提前结束。适合落地页优化、广告素材测试和 CRO 从业者使用。
双比例 z 检验判断 A/B 测试结果是否达到统计显著(95% 置信度)
A 组(对照)
转化率:—
B 组(实验)
转化率:—
提升幅度
—
p 值
—
结论
—
双比例 z 检验(双尾) · p < 0.05 视为显著 · 显著仅说明差异非随机,不代表业务影响大小
在没有统计分析的情况下进行 A/B 测试,不是实验——是用数据包装的猜测。A/B 测试显著性计算器判断你的对照版本(变体 A)和挑战版本(变体 B)之间的转化率差异是否具有统计显著性,还是仅仅可能由随机偶然性解释。
统计显著性检验回答的问题是:"如果变体 A 和变体 B 的真实转化率实际上相同,仅凭偶然观察到这么大差异的概率是多少?"当这个概率降低到 5% 以下(传统阈值),我们称结果在 95% 置信水平上具有统计显著性——意味着只有不到 5% 的概率,观察到的差异是偶然现象。
这在广告和转化追踪场景中至关重要。没有显著性检验,即使是经验丰富的营销人员也会系统性地将噪声误读为信号。一个在 200 次转化后看起来赢了 10% 的变体,可能有 30% 的概率只是随机运气。大规模上线那个"赢家"意味着在放大方差,而非真正的绩效提升。经过数百次这样的决策,复利效应会显著侵蚀项目绩效。
本计算器使用双比例 z 检验——比较两组独立样本转化率的标准统计方法。输出 p 值、z 分数,以及结果是否通过 95% 置信阈值的清晰判断。
在确认显著性测试结果之后——预算调配、素材轮换、出价策略调整——广告活动综合指标计算器能提供完整漏斗背景来量化影响。
双比例 z 检验:
给定两个变体:
合并比例: p_pool = (c_A + c_B) / (n_A + n_B)
标准误差: SE = √[ p_pool × (1 − p_pool) × (1/n_A + 1/n_B) ]
z 分数: z = (p_B − p_A) / SE
p 值: 在零假设(无真实差异)成立时,观察到这么极端 z 分数的概率。对于双尾检验,p 值 = 2 × (1 − Φ(|z|)),其中 Φ 是标准正态分布的累积分布函数。
决策规则:
计算示例:
一个落地页测试向 5,000 名访客展示变体 A(对照),向另外 5,000 名访客展示变体 B(新标题)。变体 A 转化率 2.4%(120 次转化);变体 B 转化率 2.9%(145 次转化)。20.8% 的相对提升是真实的吗?
结果:不显著。 尽管数据中出现了 20.8% 的相对提升,但有 49% 的概率这一差异源于随机波动。在宣布变体 B 为赢家之前,你需要更多数据。
这个例子说明了 A/B 测试中最常见的错误:因为提升"看起来很大"就过早宣布结果。两组的基础转化率(2.4% 对 2.9%)足够接近,样本量也足够小,方差淹没了信号。
最小可探测效应与所需样本量:
所需样本量取决于你的基准转化率、你关心能探测到的最小提升,以及期望的置信水平。95% 置信、80% 统计功效下的粗略估算:
| 基准转化率 | 要探测的最小提升 | 每个变体所需访客数 |
|---|---|---|
| 1% | 20%(达到 1.2%) | 约 35,000 |
| 1% | 50%(达到 1.5%) | 约 7,500 |
| 2% | 20%(达到 2.4%) | 约 17,500 |
| 5% | 10%(达到 5.5%) | 约 23,000 |
| 5% | 20%(达到 6.0%) | 约 6,000 |
| 10% | 10%(达到 11%) | 约 11,000 |
关键观察:在低转化率(低于 2%)下,探测小幅提升需要非常大的样本量。转化率 1% 的电商结账页面,要探测 20% 的提升,每个变体需要数万访客——以每个变体每日 1,000 访客的速度,最少需要 35 天的测试。
测试时长指南:
确认显著性后,使用转化追踪数据在你的分析平台验证结果,并使用归因数据确保获胜变体的提升在不同流量来源中保持一致。
它的意思是:如果你在完全相同的条件下重复进行这个实验 100 次,且两个变体之间没有真实差异,你预期大约有 5 次会偶然看到这么极端或更极端的结果。当测试通过 95% 置信度时,并不是说有 95% 的概率变体 B 真的更好——而是说,如果没有真实差异,观察到当前数据的概率不足 5%。统计学家称此为在 5% 显著性水平上拒绝零假设。
在结果达到显著性时立即停止测试,称为"可选停止"或"偷看",会大幅虚高你的假阳性率。如果你持续查看结果并在第一次显著时停止,即使你设定了 5% 的阈值,实际假阳性率也可能达到 30–40%。这是因为每次额外查看都给随机波动更多机会制造虚假的显著结果。在测试启动前承诺最小样本量或运行时间,并严格遵守。
统计显著性和实践显著性是两回事。在 100 万访客 / 变体的情况下,0.1% 的转化率提升可能具有统计显著性,但业务影响可能不值得实施成本。始终将显著性结论与收入影响估算结合:增量转化量 = (p_B − p_A) × 月流量 × 0.5,然后乘以平均订单价值。如果年化收入影响超过实施成本,则推进;如果不超过,将测试视为信息性发现,不作为行动依据。
双比例 z 检验专门适用于二元结果(转化 / 未转化)。对于连续型指标——平均订单价值、每访客收入、会话时长——需要不同的统计检验(通常是双样本 t 检验或非参数检验)。对于广告创意的点击率测试(点击 vs. 展示量为二元结果),本计算器直接适用。对于涉及归因收入指标的测试,请咨询统计学家,或使用能正确处理收入分布的平台专属测试工具。
通过输入广告花费和广告带来的收入,即时计算广告投资回报率(ROI)和净利润。本计算器根据行业基准给出绩效评级:亏损、还行或优秀,帮助你在追加预算前快速判断广告活动是否盈利。适合 Google Ads、Meta 广告、TikTok 广告等任何付费渠道的广告主和运营人员使用。
输入广告花费和归因销售额,即时得到 ROAS 倍数及行业基准评级(低于2x偏低、2–4x正常、高于4x优秀)。适合电商广告主、DTC 品牌和绩效营销人员快速评估投放效率。支持目标 ROAS 反推功能:输入期望倍数,自动计算需要达到的最低销售额。
在预算、展示量、点击量、CPM 和 CPC 之间进行双向换算的媒介规划工具。模式A:已知预算和 CPM/CPC 费率,计算可获得的展示量或点击量;模式B:已知目标量,推算所需预算。另含 CTR 计算模块,可由展示量和点击量直接得出点击率,适合媒介采购和广告策划人员。