首页 > A/B 实验分析
头像
tom牛客
编辑于 2021-04-19 13:46
+ 关注

A/B 实验分析

怎么做A/B Test? - A/B Test中feature 成功了,但是上线后。结果不理想?会有什么原因?

假如我们想加入一个新的feature或者UI发生了改变。我们想确认这个新的改变的确达到了我们预期的目标。通常在这种情况下,可以采用 A/B Test的方式来验证我们的假设。接下来就要确认我们的实验对象。假如我们是在结账环节做一些改变,那么我们的实验对象则是那些开始结账付款的顾客。那么接下来就是检验假设。在设定了目标,和收集了足够的数据,分析结果再决定是否launch 这个feature 到所有user。

Statistical Power is the probability of detecting a meaningful difference between variants when there really is one.

P-Value is the probability of obtaining a result equal to or more extreme than what was observed, assuming null hypothesis is critical.



Threats to Internal Validity

Violations of SUTVA(Stable Unit Treatment Value Assumption)

No interference

Their behavior is impacted by their own variant assignment

Social Network effect (Chapter 22)

Sample Ratio Mismatch (Chapter 21)

External Validity

Primacy effect: users primed to the old feature

Novelty effect: Users will use it at first, but find it unuseful. The repeat usage is small.

Plot the usage over time. Then the trend is clear. Steady decreased over time. Take the users who appeared in the first day or two and plot the treatment effect for them over time.

AB test 实验significant 但是 实际上没有那么有效。

那么A/B 实验失败了。让你分析原因。那么首先看一下“不均衡样本权重”的问题。分配control和treatment的时候是否出现了问题。看下面表格,0.5的平均分配。Control有445000个,Treatment有450000个。5000的区别。但是根据计算,这个样本情况是不应该出现的。如果的真的是0.5的概率分配。

Expected ratio (control/(control+treatment))

0.5

Count in Control

445,000

Count in Treatment

450,000

C/pop

0.4972

Z

(5.29)

P-value (t-dist, no plug-in estimate)

1.25651E-07

那么可能的原因是 随机分配的时候出现问题。确认实验对象(看见主页的用户还是开始checkout的用户)的时候出现问题?

如果检查过,不是这个原因?那么社交网络的影响有没有可能? control和treatment的人是好友。在treatment里面的人页影响了control的人。因为新的功能?那么解决这个问题可以 社交网络+地理隔离的方法。 尽量让 control 和 treatment 里处于不同的社交网络。这样就减少相互影响的可能性。

最后可以通过segement检查一下。市场之间的区别,time of day 或者 day of week周末和工作日,上班时间和下班时间影响也很大,新旧用户之间有没有区别? 如果 A/B 实验的结果真的是新的feature导致的。那么segment之间不应该有很大的区别。

还有一种可能性,Primacy/Novelty effect。 有可能用户特别想尝试新的功能。一开始影响特别大,但是随着时间效果就没了。所以画图画一下metric day to day的影响。通常下降特别快。

这就是A/B Test的分析,个人认为 每次实验能确保实验对象相互独立,随机,且不相互影响。就很不容易了。而且在互联网的条件下,能保持这些条件就很不容易了。

统计验证上基本上都是T-Test。如果实验set up得完美无缺,那么T test基本上就没有问题。

全部评论

(0) 回帖
加载中...
话题 回帖

推荐话题

相关热帖

热门推荐