广告营销工具
SEOSEO付费获客付费获客程序化广告网站变现程序化App 获客App 变现网站变现关键词研究搜索意图App 获客ROASCPAApp 变现CPCLTV联盟营销eCPMRPM零售媒体营销归因转化追踪创意情报MMPHeader BiddingDSPSSPRTB广告可见率填充率ASOSKAdNetworkARPDAU激励视频广告聚合联盟营销创意测试A/B 测试再营销相似受众广告优化品牌安全供应路径
SEOSEO付费获客付费获客程序化广告网站变现程序化App 获客App 变现网站变现关键词研究搜索意图App 获客ROASCPAApp 变现CPCLTV联盟营销eCPMRPM零售媒体营销归因转化追踪创意情报MMPHeader BiddingDSPSSPRTB广告可见率填充率ASOSKAdNetworkARPDAU激励视频广告聚合联盟营销创意测试A/B 测试再营销相似受众广告优化品牌安全供应路径

实用计算器

A/B 测试显著性计算器

免费

输入对照组和实验组的访客数与转化数,本工具在浏览器内完成双比例 z 检验,输出两组转化率、相对提升幅度、双尾 p 值,并按 95% 置信度给出是否显著的明确结论。当结果尚不显著时,还会按当前观察到的提升幅度估算每组所需的最小样本量(80% 统计功效),帮你判断该继续跑测试还是提前结束。适合落地页优化、广告素材测试和 CRO 从业者使用。

分析A/B 测试统计显著性计算器转化率优化p 值

A/B 测试显著性计算器

双比例 z 检验判断 A/B 测试结果是否达到统计显著(95% 置信度)

A 组(对照)

转化率:

B 组(实验)

转化率:

提升幅度

p 值

结论

双比例 z 检验(双尾) ·  p < 0.05 视为显著  ·  显著仅说明差异非随机,不代表业务影响大小

什么是 A/B 测试显著性计算器?

在没有统计分析的情况下进行 A/B 测试,不是实验——是用数据包装的猜测。A/B 测试显著性计算器判断你的对照版本(变体 A)和挑战版本(变体 B)之间的转化率差异是否具有统计显著性,还是仅仅可能由随机偶然性解释。

统计显著性检验回答的问题是:"如果变体 A 和变体 B 的真实转化率实际上相同,仅凭偶然观察到这么大差异的概率是多少?"当这个概率降低到 5% 以下(传统阈值),我们称结果在 95% 置信水平上具有统计显著性——意味着只有不到 5% 的概率,观察到的差异是偶然现象。

这在广告和转化追踪场景中至关重要。没有显著性检验,即使是经验丰富的营销人员也会系统性地将噪声误读为信号。一个在 200 次转化后看起来赢了 10% 的变体,可能有 30% 的概率只是随机运气。大规模上线那个"赢家"意味着在放大方差,而非真正的绩效提升。经过数百次这样的决策,复利效应会显著侵蚀项目绩效。

本计算器使用双比例 z 检验——比较两组独立样本转化率的标准统计方法。输出 p 值、z 分数,以及结果是否通过 95% 置信阈值的清晰判断。

在确认显著性测试结果之后——预算调配、素材轮换、出价策略调整——广告活动综合指标计算器能提供完整漏斗背景来量化影响。

公式与计算原理

双比例 z 检验:

给定两个变体:

  • 变体 A:n_A 访客,c_A 次转化 → 转化率 p_A = c_A / n_A
  • 变体 B:n_B 访客,c_B 次转化 → 转化率 p_B = c_B / n_B

合并比例: p_pool = (c_A + c_B) / (n_A + n_B)

标准误差: SE = √[ p_pool × (1 − p_pool) × (1/n_A + 1/n_B) ]

z 分数: z = (p_B − p_A) / SE

p 值: 在零假设(无真实差异)成立时,观察到这么极端 z 分数的概率。对于双尾检验,p 值 = 2 × (1 − Φ(|z|)),其中 Φ 是标准正态分布的累积分布函数。

决策规则:

  • p 值 < 0.05 → 在 95% 置信水平上具有统计显著性
  • p 值 < 0.01 → 在 99% 置信水平上具有统计显著性
  • p 值 ≥ 0.05 → 不显著;不能宣布赢家

计算示例:

一个落地页测试向 5,000 名访客展示变体 A(对照),向另外 5,000 名访客展示变体 B(新标题)。变体 A 转化率 2.4%(120 次转化);变体 B 转化率 2.9%(145 次转化)。20.8% 的相对提升是真实的吗?

  • p_A = 0.024,p_B = 0.029
  • p_pool = (120 + 145) / 10,000 = 0.0265
  • SE = √[0.0265 × 0.9735 × (1/5000 + 1/5000)] ≈ 0.00718
  • z = (0.029 − 0.024) / 0.00718 ≈ 0.696
  • p 值 ≈ 0.487

结果:不显著。 尽管数据中出现了 20.8% 的相对提升,但有 49% 的概率这一差异源于随机波动。在宣布变体 B 为赢家之前,你需要更多数据。

这个例子说明了 A/B 测试中最常见的错误:因为提升"看起来很大"就过早宣布结果。两组的基础转化率(2.4% 对 2.9%)足够接近,样本量也足够小,方差淹没了信号。

行业基准

最小可探测效应与所需样本量:

所需样本量取决于你的基准转化率、你关心能探测到的最小提升,以及期望的置信水平。95% 置信、80% 统计功效下的粗略估算:

基准转化率要探测的最小提升每个变体所需访客数
1%20%(达到 1.2%)约 35,000
1%50%(达到 1.5%)约 7,500
2%20%(达到 2.4%)约 17,500
5%10%(达到 5.5%)约 23,000
5%20%(达到 6.0%)约 6,000
10%10%(达到 11%)约 11,000

关键观察:在低转化率(低于 2%)下,探测小幅提升需要非常大的样本量。转化率 1% 的电商结账页面,要探测 20% 的提升,每个变体需要数万访客——以每个变体每日 1,000 访客的速度,最少需要 35 天的测试。

测试时长指南:

  • 最短运行时间:2 整周(以覆盖星期效应)
  • 最长运行时间:6–8 周(超过此时间,外部因素会污染结果解读)
  • 切勿仅因为提前达到显著性就结束测试——早看数据会严重虚高假阳性率
  • 推荐置信阈值:大多数决策使用 95%(p < 0.05);不可逆变更使用 99%

如何使用本计算器

  1. 输入变体 A 样本量——对照组暴露的访客数或展示量。
  2. 输入变体 A 转化量——对照组的目标完成次数(购买、注册、点击)。
  3. 输入变体 B 样本量——挑战变体暴露的访客数。
  4. 输入变体 B 转化量——挑战变体的目标完成次数。
  5. 读取 p 值和 z 分数——主要统计输出。
  6. 读取判定结论——计算器直接告诉你结果是否在 95% 置信水平上显著。
  7. 查看相对提升——B 相较于 A 的百分比提升(或下降),及其显著性评级。
  8. 不要提前终止——如果结果尚未显著,继续测试,而非下线"领先"的变体。

确认显著性后,使用转化追踪数据在你的分析平台验证结果,并使用归因数据确保获胜变体的提升在不同流量来源中保持一致。

常见问题

95% 置信度究竟是什么意思?

它的意思是:如果你在完全相同的条件下重复进行这个实验 100 次,且两个变体之间没有真实差异,你预期大约有 5 次会偶然看到这么极端或更极端的结果。当测试通过 95% 置信度时,并不是说有 95% 的概率变体 B 真的更好——而是说,如果没有真实差异,观察到当前数据的概率不足 5%。统计学家称此为在 5% 显著性水平上拒绝零假设。

为什么不应该在第一次看到 p < 0.05 时就停止测试?

在结果达到显著性时立即停止测试,称为"可选停止"或"偷看",会大幅虚高你的假阳性率。如果你持续查看结果并在第一次显著时停止,即使你设定了 5% 的阈值,实际假阳性率也可能达到 30–40%。这是因为每次额外查看都给随机波动更多机会制造虚假的显著结果。在测试启动前承诺最小样本量或运行时间,并严格遵守。

我的测试结果显著,但提升幅度很小。应该实施变体 B 吗?

统计显著性和实践显著性是两回事。在 100 万访客 / 变体的情况下,0.1% 的转化率提升可能具有统计显著性,但业务影响可能不值得实施成本。始终将显著性结论与收入影响估算结合:增量转化量 = (p_B − p_A) × 月流量 × 0.5,然后乘以平均订单价值。如果年化收入影响超过实施成本,则推进;如果不超过,将测试视为信息性发现,不作为行动依据。

这个计算器可以用于转化率以外的指标吗?

双比例 z 检验专门适用于二元结果(转化 / 未转化)。对于连续型指标——平均订单价值、每访客收入、会话时长——需要不同的统计检验(通常是双样本 t 检验或非参数检验)。对于广告创意的点击率测试(点击 vs. 展示量为二元结果),本计算器直接适用。对于涉及归因收入指标的测试,请咨询统计学家,或使用能正确处理收入分布的平台专属测试工具。

相关基础概念

更多工具: 实用计算器