Evidently 是如何计算结果的 - Amazon CloudWatch
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

Evidently 是如何计算结果的

您可以使用 Amazon CloudWatch Evidently A/B 测试作为数据驱动型决策的工具。在 A/B 测试中,用户被随机分配到对照组(也称为默认变体)或其中一个治疗组(也称为测试变体)。例如,对照组中的用户体验网站、服务或应用程序的方式可能与实验开始之前相同。同时,治疗组中的用户可能会经历这种变化。

CloudWatch Evidently 在一项实验中最多支持五种不同的变体。Evidently 将流量随机分配给这些变体。这样,您可以跟踪每个组的业务指标(例如收入)和绩效指标(例如延迟)。Evidently 可执行以下操作:

  • 将治疗与对照进行比较。(例如,通过新的结账流程比较收入是增加还是减少。)

  • 表明观察到的治疗和对照之间的差异是否为显著。为此,Evidently 提供了两种方法:频率论显著性水平贝叶斯概率

为什么要使用频率论方法和贝叶斯方法?

考虑治疗与对照组相比没有效果的病例,或者治疗与对照组相同的病例(A/A 测试)。您仍然可以在数据中观察到治疗和对照之间存在细微差异。这是因为测试参加者由有限的用户样本组成,占网站、服务或应用程序所有用户的一小部分。通过频率论显著性水平和贝叶斯概率可以洞察观察到的差异是显著的还是偶然的。

Evidently 考虑以下因素来确定观察到的差异是否显著:

  • 差异有多大

  • 测试中有多少样本

  • 数据是如何分布的

Evidently 中的频率论分析

Evidently 使用顺序测试,这样可以避免常见的窥视问题,这是频率论统计方法的常见陷阱。窥视是检查正在进行的 A/B 测试结果的一种做法,以便停止测试并根据观察到的结果做出决定。有关顺序测试的更多信息,请参阅欧几里德项目中的时间均匀、非参数、非渐近置信序列

因为 Evidently 的结果在任何时候都是有效的(随时有效结果),您可以在实验过程中窥视结果,且仍然可以得出合理的结论。这可以降低一些实验成本,因为如果实验结果已经具有显著性,则可以在预定时间之前停止实验。

Evidently 可以生成随时有效的显著性水平,以及目标指标中测试变体与默认变体之间差异的 95% 置信区间。实验结果中的 Result(结果)列表示测试的变体性能,包括以下各项之一:

  • Inconclusive(不确定)– 显著性水平低于 95%

  • Better(更好)– 显著性水平为 95% 或以上,出现以下情况之一:

    • 95% 置信区间的下限高于零,指标应增加

    • 95% 置信区间的上限低于零,指标应减小

  • Worse(更差)– 显著性水平为 95% 或以上,出现以下情况之一:

    • 95% 置信区间的上限高于零,指标应增加

    • 95% 置信区间的下限低于零,指标应减小

  • Best(最好)– 除了默认变体外,实验还有两个或多个经过测试的变体,并且满足以下条件:

    • 该变体符合 Better(更好)名称条件

    • 满足以下条件:

      • 95% 置信区间的下限高于所有其他变体的 95% 置信区间的上限,指标应增加

      • 95% 置信区间的上限低于所有其他变体的 95% 置信区间的下限,指标应减小

Evidently 中的贝叶斯分析

使用贝叶斯分析,您可以计算出测试变体中的均值大于或小于默认变体中的均值的概率。Evidently 使用共轭先验对目标指标的平均值进行贝叶斯推断。使用共轭先验,Evidently 可以更有效地推断出贝叶斯分析所需的后验分布。

Evidently 要等到实验结束日期才计算贝叶斯分析的结果。结果页显示以下内容:

  • 增加的概率 – 测试变体中指标的均值比默认变体中的均值至少大 3% 的概率

  • 减小的概率 – 测试变体中指标的均值比默认变体中的均值至少小 3% 的概率

  • 不变概率 – 测试变体中指标的均值在默认变体中的均值的 ±3% 内的概率

Result(结果)列表示变体性能,可以是以下各项之一:

  • Better(更好)– 增加概率至少为 90%,指标应增加,或者减小概率至少为 90%,指标应降低

  • Worse(更差)– 减小概率至少为 90%,指标应增加,或者增加概率至少为 90%,指标应减小