Who is A/B 测试显著性计算器 best for?

Marketers validating ad, landing-page, or email tests CRO teams confirming a lift is real before rolling out Anyone avoiding decisions based on random fluctuation

What should beginners know about A/B 测试显著性计算器?

Set your sample size and test duration in advance; stopping early when a result looks good inflates false positives. Significance answers whether an effect exists, not whether it is large enough to matter commercially. Run tests over full weeks so weekday and weekend behaviour are both represented.

实用计算器

A/B 测试显著性计算器

免费

输入对照组和实验组的访客数与转化数，本工具在浏览器内完成双比例 z 检验，输出两组转化率、相对提升幅度、双尾 p 值，并按 95% 置信度给出是否显著的明确结论。当结果尚不显著时，还会按当前观察到的提升幅度估算每组所需的最小样本量（80% 统计功效），帮你判断该继续跑测试还是提前结束。适合落地页优化、广告素材测试和 CRO 从业者使用。

分析A/B 测试统计显著性计算器转化率优化p 值

主要用途

This calculator decides whether the gap between two variants in an A/B test is a real effect or just noise. Enter the visitors and conversions for your control and variant and it returns each conversion rate, the relative lift, and a statistical significance result — typically a p-value and confidence level — telling you how likely the difference is to hold beyond your sample. It exists because eyeballing a few percentage points of lift routinely fools marketers into shipping changes that were random fluctuations. Use it before declaring a winner on an ad creative, landing page, or email test, and to judge whether a test has collected enough data to trust at all.

所在链路

It sits at the analytics stage, separating real winners from noise before you act on test results.

核心功能

Conversion rate for control and variant from raw counts
Relative lift between the two variants
Statistical significance with p-value and confidence level
Clear winner / no-significant-difference verdict
Quick read on whether sample size is sufficient

适合谁用

Marketers validating ad, landing-page, or email tests
CRO teams confirming a lift is real before rolling out
Anyone avoiding decisions based on random fluctuation

新手提示

Set your sample size and test duration in advance; stopping early when a result looks good inflates false positives.
Significance answers whether an effect exists, not whether it is large enough to matter commercially.
Run tests over full weeks so weekday and weekend behaviour are both represented.

A/B 测试显著性计算器

双比例 z 检验判断 A/B 测试结果是否达到统计显著（95% 置信度）

A 组（对照）

访客数转化量

转化率：—

B 组（实验）

访客数转化量

转化率：—

提升幅度

—

p 值

—

结论

—

双比例 z 检验（双尾） · p < 0.05 视为显著 · 显著仅说明差异非随机，不代表业务影响大小

什么是 A/B 测试显著性计算器？

在没有统计分析的情况下进行 A/B 测试，不是实验——是用数据包装的猜测。A/B 测试显著性计算器判断你的对照版本（变体 A）和挑战版本（变体 B）之间的转化率差异是否具有统计显著性，还是仅仅可能由随机偶然性解释。

统计显著性检验回答的问题是："如果变体 A 和变体 B 的真实转化率实际上相同，仅凭偶然观察到这么大差异的概率是多少？"当这个概率降低到 5% 以下（传统阈值），我们称结果在 95% 置信水平上具有统计显著性——意味着只有不到 5% 的概率，观察到的差异是偶然现象。

这在广告和转化追踪场景中至关重要。没有显著性检验，即使是经验丰富的营销人员也会系统性地将噪声误读为信号。一个在 200 次转化后看起来赢了 10% 的变体，可能有 30% 的概率只是随机运气。大规模上线那个"赢家"意味着在放大方差，而非真正的绩效提升。经过数百次这样的决策，复利效应会显著侵蚀项目绩效。

本计算器使用双比例 z 检验——比较两组独立样本转化率的标准统计方法。输出 p 值、z 分数，以及结果是否通过 95% 置信阈值的清晰判断。

在确认显著性测试结果之后——预算调配、素材轮换、出价策略调整——广告活动综合指标计算器能提供完整漏斗背景来量化影响。

公式与计算原理

双比例 z 检验：

给定两个变体：

变体 A：n_A 访客，c_A 次转化 → 转化率 p_A = c_A / n_A
变体 B：n_B 访客，c_B 次转化 → 转化率 p_B = c_B / n_B

合并比例： p_pool = (c_A + c_B) / (n_A + n_B)

标准误差： SE = √[ p_pool × (1 − p_pool) × (1/n_A + 1/n_B) ]

z 分数： z = (p_B − p_A) / SE

p 值： 在零假设（无真实差异）成立时，观察到这么极端 z 分数的概率。对于双尾检验，p 值 = 2 × (1 − Φ(|z|))，其中 Φ 是标准正态分布的累积分布函数。

决策规则：

p 值 < 0.05 → 在 95% 置信水平上具有统计显著性
p 值 < 0.01 → 在 99% 置信水平上具有统计显著性
p 值 ≥ 0.05 → 不显著；不能宣布赢家

计算示例：

一个落地页测试向 5,000 名访客展示变体 A（对照），向另外 5,000 名访客展示变体 B（新标题）。变体 A 转化率 2.4%（120 次转化）；变体 B 转化率 2.9%（145 次转化）。20.8% 的相对提升是真实的吗？

p_A = 0.024，p_B = 0.029
p_pool = (120 + 145) / 10,000 = 0.0265
SE = √[0.0265 × 0.9735 × (1/5000 + 1/5000)] ≈ 0.00718
z = (0.029 − 0.024) / 0.00718 ≈ 0.696
p 值 ≈ 0.487

结果：不显著。 尽管数据中出现了 20.8% 的相对提升，但有 49% 的概率这一差异源于随机波动。在宣布变体 B 为赢家之前，你需要更多数据。

这个例子说明了 A/B 测试中最常见的错误：因为提升"看起来很大"就过早宣布结果。两组的基础转化率（2.4% 对 2.9%）足够接近，样本量也足够小，方差淹没了信号。

行业基准

最小可探测效应与所需样本量：

所需样本量取决于你的基准转化率、你关心能探测到的最小提升，以及期望的置信水平。95% 置信、80% 统计功效下的粗略估算：

基准转化率	要探测的最小提升	每个变体所需访客数
1%	20%（达到 1.2%）	约 35,000
1%	50%（达到 1.5%）	约 7,500
2%	20%（达到 2.4%）	约 17,500
5%	10%（达到 5.5%）	约 23,000
5%	20%（达到 6.0%）	约 6,000
10%	10%（达到 11%）	约 11,000

关键观察：在低转化率（低于 2%）下，探测小幅提升需要非常大的样本量。转化率 1% 的电商结账页面，要探测 20% 的提升，每个变体需要数万访客——以每个变体每日 1,000 访客的速度，最少需要 35 天的测试。

测试时长指南：

最短运行时间：2 整周（以覆盖星期效应）
最长运行时间：6–8 周（超过此时间，外部因素会污染结果解读）
切勿仅因为提前达到显著性就结束测试——早看数据会严重虚高假阳性率
推荐置信阈值：大多数决策使用 95%（p < 0.05）；不可逆变更使用 99%

如何使用本计算器

输入变体 A 样本量——对照组暴露的访客数或展示量。
输入变体 A 转化量——对照组的目标完成次数（购买、注册、点击）。
输入变体 B 样本量——挑战变体暴露的访客数。
输入变体 B 转化量——挑战变体的目标完成次数。
读取 p 值和 z 分数——主要统计输出。
读取判定结论——计算器直接告诉你结果是否在 95% 置信水平上显著。
查看相对提升——B 相较于 A 的百分比提升（或下降），及其显著性评级。
不要提前终止——如果结果尚未显著，继续测试，而非下线"领先"的变体。

确认显著性后，使用转化追踪数据在你的分析平台验证结果，并使用归因数据确保获胜变体的提升在不同流量来源中保持一致。

常见问题

95% 置信度究竟是什么意思？

它的意思是：如果你在完全相同的条件下重复进行这个实验 100 次，且两个变体之间没有真实差异，你预期大约有 5 次会偶然看到这么极端或更极端的结果。当测试通过 95% 置信度时，并不是说有 95% 的概率变体 B 真的更好——而是说，如果没有真实差异，观察到当前数据的概率不足 5%。统计学家称此为在 5% 显著性水平上拒绝零假设。

为什么不应该在第一次看到 p < 0.05 时就停止测试？

在结果达到显著性时立即停止测试，称为"可选停止"或"偷看"，会大幅虚高你的假阳性率。如果你持续查看结果并在第一次显著时停止，即使你设定了 5% 的阈值，实际假阳性率也可能达到 30–40%。这是因为每次额外查看都给随机波动更多机会制造虚假的显著结果。在测试启动前承诺最小样本量或运行时间，并严格遵守。

我的测试结果显著，但提升幅度很小。应该实施变体 B 吗？

统计显著性和实践显著性是两回事。在 100 万访客 / 变体的情况下，0.1% 的转化率提升可能具有统计显著性，但业务影响可能不值得实施成本。始终将显著性结论与收入影响估算结合：增量转化量 = (p_B − p_A) × 月流量 × 0.5，然后乘以平均订单价值。如果年化收入影响超过实施成本，则推进；如果不超过，将测试视为信息性发现，不作为行动依据。

这个计算器可以用于转化率以外的指标吗？

双比例 z 检验专门适用于二元结果（转化 / 未转化）。对于连续型指标——平均订单价值、每访客收入、会话时长——需要不同的统计检验（通常是双样本 t 检验或非参数检验）。对于广告创意的点击率测试（点击 vs. 展示量为二元结果），本计算器直接适用。对于涉及归因收入指标的测试，请咨询统计学家，或使用能正确处理收入分布的平台专属测试工具。