前段时间用博客的几个测试页面测验测验了下使用谷歌 Website Optimizer做A/B测试,颠末这段时间收集了一些测试数据,感激年夜家辅佐点击。其实之前一直想介绍谷歌的这个网站对比实验优化东西,完全免费并且操作简单,并且在不久的未来自力的谷歌 Website Optimizer就会消失,这块功能会被整合到谷歌 Analytics里面,相信很多GA的用户已经在Content模块中发现了新增的Experiments这个功能,这个就是从谷歌 Website Optimizer衍生而来,功能和使用上面应该会有些调剂和转变。
对谷歌 Website Optimizer的使用其实并没有那么复杂,使用实验的成立向导连络网页的提示和帮忙,普通的用户成立自己的实验完全没有问题,只是网站的千差万别可能有很多的细节方面需要注意,或需要想一些体例让实验过程和监控成果加倍有效。所以这里不介绍GWO东西使用自己,我比较感兴趣的其实是实验输出的成果报表,里面涉及对成果的区间预估,测试方案胜出的概率,提升幅度等,这些指标都用统计学的体例计较取得,相比直接比较两组不雅察值,比较成果加倍科学,更具说服力。
首先看下GWO输出的述说,这里用的是A/B测试,如果使用Multivariate Testing(MVT)述说会有细微的差别,但指标及统计逻辑应该是相同的:
我用GWO实现了一个最简单的A/B测试,一个原始版本和一个测试版本,输出的述说主要是比较实验过程中设定的转化率。上方的折线图显示的是原始版本和实验版本的转化率趋势,截至目前的转化情况显示在下方表格的最右侧(Conv./Visitors),从指标名称看,GWO权衡转化率用的是转化的用户数,应该使用Cookie来唯一识别用户(这里仅是在博客新建了几个简单测试页面,所以数据量较小,而转化率相比正常网站都明显偏高)。
所以,这里重点研究了下图中表格红框内的3个指标,看它们是如何计较取得的。
估算转化率
从图中红框1中可以看到Est. conv. rate,GWO报表对目前取得的转化率做了正负区间的预估,进而可以取得目前该版本转化率可能的置信区间(详见前一篇文章——参数估计与置信区间),这里用当前的转化率估计该版本的总体转化率p,进而可以计较取得总体标准差σ= sqrt(p(1-p)/n),比如这里原始版本的总体标准差约为0.0540,而测试版本的标准差约为0.0647,按照Zα/2×σ计较取得的上表中正负的7.6%和9.1%,所以我们便可以猜出GWO用的Zα/2年夜概为1.4,这个数值我在测试期间接连验证过几次,根基很是稳定,按照Z值表,这个置信区间年夜概的置信度在84%,也不知道为什么GWO要选择这么个置信度。
红框1的上方我们可以看到GWO按照测试的效果将测试版天职成了三类,别离用绿色暗示胜出的测试版本,黄色暗示不确定的测试版本,红色暗示落败的测试版本。谷歌仅给出了简单的说明,建议我们可以选择使用显示为绿色的版本,因为它们有很年夜的可能性(也只是可能)优于原始版本,而显示红色版本建议可以停止测试。具体到指标需要达到怎样的水平才会显示绿色或红色,我没有去验证,有使用经验的或感兴趣的同学可以去不雅察下试试。
胜过原始版本的概率
之前在T查验和卡方查验这篇文章介绍过可使用卡方查验的体例来比较二项散布数据间的概率是否存在显著差别,但卡方查验只能查验差别的显著性,没法直接说明某组样本的概率有多少的概率逾越别的一个样本,所以在GWO的述说里面没有使用卡方查验,而使用了单尾Z查验。当样本数量逾越30的时候,我们一般会使用Z查验来替代T查验比较两组自力或配对样本间的均值差别,因为这里只是为了证明一组样本概率明显逾越别的一组样本的可能性,所以使用了单尾查验。计较Z统计量的公式如下:
按照表格的数据,原始方案和测试方案的转化率均值p别离为78.9%和78.0%,按照公式S2=p(1-p)别离计较两组样本的方差为0.1665和0.1716,而两组样本数n别离为57和41,进而计较取得Z=0.1068,查Z值表可得Z=0.10的概率为46.02%,Z=0.11的概率为45.62%,表中显示的Chance to Beat Orig.=45.9%,介于二者之间,使用的应该是近似的统计体例取得的值,偏差是因为中间精度措置引起的。