​一份产品经理的A/B测试笔记

A/B测试在很多科技公司中都有广泛的应用,但是A/B测试的结果却常常受到各种质疑。作为经常需要将A/B测试的结果呈现给其他团队或客户的产品经理,需要知道A/B测试是如何运作的,尽量避免呈现出来的结果可信度低的问题。

​一份产品经理的A/B测试笔记

今天,我们将重点放在A/B测试的一些细节上并解释为什么这些细节应该被重视,而不应该被看作是理所当然的。

1、如何定义理想的A/B测试?

简单来说,完美的A/B测试产生的结果是能够被正确验证或者去除假设的。但说起来容易做起来难,当你真正在做一个实验的时候,你会发现,每个部分都有可能会出错。在详细探讨为什么会出错之前,我们要先明白:

一个精确的科学统计结果对我们来说是否至关重要?

“如果检验结果不可靠,混杂不该有的因素怎么办?” 这是我们应该提出的问题。由于考虑到时间,资源和专业水平,我们可能会忽视掉一些与实验相关的细节。

一个精确的科学统计结果对我们来说是否至关重要,关键要看这个统计结果是否直接影响到我们做决策。如果我们只需要方向性结果或测试后分析,那么就没必要去追求一个绝对精确的A/B测试;但是,如果实验结果的微小变化都可能影响我们的决策,我们就不能遗漏任何细节。

2、在实验中会遇到哪些问题?如何处理?

为了方便理解,下面我们将讲述一个虚拟故事来一一呈现这些问题:

想象一个美好的周五,你和设计师和工程师不停歇地在重新设计你们电商app的支付页面。你们都期待这个更新将很好地提高转化率。但是你必须用数据支持自己的想法,所以两个月以前就开始进行了A/B测试。

今天,分析师的报告里表明了重新设计的页面将转化率提高了5%(转化率= 订单数/结账数)!5%不容小觑,于是你很快给大家发了一封长长的邮件,“吹嘘”了自己的影响并感谢大家的不懈努力。

然后你就决定将这个重新设计的页面投入使用,之后所有的用户看到的都将是新的页面。但结束周末的狂欢之后,周一早晨你收到了一封对你“胜利吹嘘“邮件的回复:

”你不是说转化率会提高5%吗?投入使用之后转化率提高3%都不到!

—— 来自市场部领导,他们部门的成本并没有像你承诺的那样减少

现在,你意识到实验的结果并不能如你所愿的转化为现实的影响。而这两个数字之间的差距是由你的实验设计和现实世界有多大差别决定的,或者说,是由统计意义上的因素导致的-----你的样本和总体之间有多大差异。

将实验设计到接近真实世界的水平并不容易,但是如果你的实验设置与现实情况差别太大,那结论就没有任何意义。

3、以下是避免这种情况的几个小tips:

1)选择正确的实验组和对照组

实验组(test)、对照组(control)和实际总体(actual population)中有关重要特征的分布:实验组和对照组中新用户与现有用户之间的划分是什么?他们和活跃用户群有何不同?新的和现有的用户很重要,因为它们的转换完全不同。同样,如果你测试的是手机app,不同的设备类型和操作系统也很重要。分层采样(stratified sampling)是一种可以克服这些差异的一个有效方式。
先前存在的偏见:在实验开始之前,实验组的转化率是否比对照组好?这听起来不太可能,但在实验中却经常出现。在下结论之前,尝试改变实验组和对照组,或在分析中将这种偏见考虑之内。

2)降低对现实世界结果的预期

尽管你尽了全力,但还是不太可能保证投入使用后现实世界的结果如你所愿。总是会有一些没有考虑到,分析起来耗时耗力的因素。所以应该适当地选择更轻松一点的方式,那就是:不要过分承诺结果。如果实验的结果表明会有5%的转化率提升,那么可以预期实际增长将会在这个数字左右范围内(通常会小一些),并且不能实现测量结果实现的影响。

假设你已经成功找到了问题的根本原因,并与市场营销的负责人澄清了情况,你想要休息一下。但是另一个回复又会将你拉回到麻烦的现实中:

“为什么实验没有按时完成?你怎么花了这么长时间?”

—— 来自你的老板,当他/她突然注意到原本你承诺在两周内完成实验

时机就是一切。

如果得出实验结论显著性所需的时间是一个月,你不会想要用超过一个月的时间来进行实验。不要着急,不要过早地对实验下结论。但更重要的是:不要仅仅因为没有得到满意的结果就拖延实验。

以下是一些可能导致我们错失时机的原因:

3)高估可能的影响

如果你希望你的功能运行良好,那么无需进行那么长时间的实验。这意味着你不应该期望你设计的新功能已经能够正常工作,所以你需要给你自己留出足够的时间来进行试验。

你可以试试使用这个显著性计算器,来更好地了解预期变化是如何影响实验时长的。(https://www.evanmiller.org/ab-testing/sample-size.html)

4)及时止损

如果你已经可以从统计上得出结论你的功能并不奏效,停止实验。记住,显著性是一个数学概念,不是一种心态。

你设计的功能是有可能不起作用的,但你要及时意识到并减少损失。不要祈祷奇迹发生。不要浪费精力做没有意义的工作。

在解释了实验超时的原因之后,你几乎已经在等待其他人抱怨你的实验结果了。这次是你的同级。新的一周,真是一个美好的开始!

“你让转化率提高了5%,但订单取消率也提高了2%。我恨你。”

—— 来自产品经理同事,你已经搞砸了他/她的曲线图了

记住,实验不仅仅与你个人的指标相关。

哪怕你并不能提供免费的Netflix订阅,你依然可以通过在主页上承诺赠送免费Netflix订阅服务来提高转化率,但这样做会对其他所有指标都产生负面影响,包括从客户留存到客服团队接到的投诉电话等。这是一个糟糕的例子,但是这告诉我们必须在实验中考虑到所有受影响的指标。

在承诺会深入研究你的更改是否确实影响订单取消率之后,你又偶然发现了一个新的谜团:

印度班加罗尔市的用户转化率没有任何变化。你的设计不适合南印度人吗?

—— 来自你正认真追踪单个城市指标的业务主管

这是一个对显著性的典型误解,而不是因为某些地区有偏好。下面请看更多细节:

5)数据粒度上的显著性水平(Significance at a granular level)

你为所有城市的用户得出了具有一定显著性水平(通常为95%)的实验结论,但这并不意味着你的结果在城市层面上是有意义的。要获得更微小精度上的显著性,你需要将实验运行更长的时间。在宣布结果之前,要了解哪些部分很重要、而哪些不重要。

6)数据粒度上的偏差(Biases at a granular level)

尽管你的总体测试和对照组们可能没有偏差,但班加罗尔市的用户完全有可能是仅在你的实验中的占主导地位的现有用户。尽管无法为每个小的实验组逐个验证这些偏差,你依然可以检查那些表现与其他组不同的组别。

整个测试到这里就结束了。回复完这些反馈邮件后,你可能会过上幸福快乐的生活,直到你想到另一个值得检验的假设。

4、结论

我有99%的把握(足够得出结论),每天进行A / B测试会发现更多问题,即使通过第三方工具检测也是一样。以上这些只是我自己或者我观察到的其他人犯的错误。

如果你只能从这篇文章学到一件事,那就是:不要将任何细节视为理所当然。对所有与你的实验相关的、以及你看到的事情不断提出疑问。或许这项工作会有些枯燥,但它会使你更接近真相,或至少远离那些假象。祝你测试愉快!

本文由 新媒体之家 作者: MarTechCareer 发表,其版权均为原作者所有,文章内容系作者个人观点,不代表 新媒体之家 对观点赞同或支持,未经许可,请勿转载,题图来自Unsplash,基于CC0协议。
2

发表评论