在网站数据阐发中,时间是最常见也是最不成或缺的维度之一,年夜部分情况下用于限定指标统计的范围和粒度,同时时间因素也会对指标的一些统计法则和细节造成影响,而在某些数据阐发中我们很容易疏忽时间因素的影响,这些影响可能误导最终的结论。
发现这个问题是在一个数据提取的需求中,网站每天会发布很多新的内容,这些新的内容需要进行推荐,不然就会被埋没,所以很多网站城市有"最新推荐"之类的模块,而这个数据需求就是阐发应该推荐哪些新内容?网站新发的内容质量良莠不齐,并且数据堆集较少,而推荐模块需要放置那些有潜力的新内容,以便潜力充分挖掘后成长为热门内容,所以数据阐发要做的就是去寻找那些有潜力的新发内容。
如果是TOP10的推荐榜单,最简单的做法就是按照新内容的拜候量或转化率进行排序选前十,但其中有很多值得注意的处所,关于转化率需要注意的处所可以参考关头指标背后的秘密这篇文章,这里主要讨论如果以内容的拜候量进行排序,如果选择近一周的汇总数据,我们需要注意什么?也许你已经想到了,之所以这里举例新内容,是因为新内容有一个发布时间(Publish Time),就像一小我的出世日期,而从发布时间到当前的时间距离就是内容的延续时间,也可以认为是内容的生命期(Lifetime),就像一小我的年龄。内容的延续时间越长就取得越多的数据堆集,相应取得高拜候量的机缘就越年夜,如果我们比较一周中在不应时间发布的内容在该周的总拜候量,那些就会失落入错位比较的陷阱,或叫"Mismatch"。
一个形象的比方就是方才入伍的新兵跟久经沙场的宿将的决战,虽然新兵不是完全没有胜出的机缘,也许那个新兵天生勇猛,或有着一股初生牛犊不怕虎的冲劲,可以一举击败经验丰富的宿将,但在年夜大都情况下这种可能性较小,这是一场不公允的决战,而在数据阐发中我们需要尽可能去避免这类不公允的决战(比较)。
内容和商品阐发
其实日常中产生这类毛病的情况可能很普遍,当我在博客新发文章几天后上谷歌 Analytics去看数据,发现新文章页在相对较后面的位置,不是因为真的没人看,而是GA上默认展现近一个月的汇总数据,报表按照Pageviews排序的成果新内容无法在短时间内迅速冲到前几位。对那些新发内容或新上架产品频率不高的网站,运营人员可能比较清楚哪些是新内容,所以通过一些人为的识别调度在阐发的时候不容易失落入陷阱,但对每周有上百个新发内容的网站,这类毛病的产生很可能埋没一些优质的新品。
我们需要找到一些体例去规避这个时间因素对阐发成果的影响,通常我们在选择比较对象的时候需要节制所有的比较对象具有相同的延续时长,比如我们比较新内容的热门度,统一选择近一周的数据,对较早发布的内容摒弃之前的数据,而近一周内刚发布的内容则舍弃不参与这次比较,比及有了完整的一周数据之后再插手比较。这样虽然可以确保比较在同一基准线上,但无疑延后了评估的结论,对某些一上来就表示抢眼的内容无法实时发现,于是这里采取统计单位时间指标表示的体例,即按照内容的发布时间统计取得每个内容的延续时间(一般切确到天便可),然后将内容的总体拜候量除以这个延续时间,就取得了单位时间的内容拜候量,进而进行比较:
上表取的是5个新发布内容近10天的拜候量数据,同时插手了内容自发布以来的延续天数,我们用总的拜候量除以延续天数计较取得平均每天拜候量,然后以总拜候量和平均每天拜候量别离进行降序排列,取得完全不一样的排名。如果按排序1,我们完全可能疏忽D内容的强劲表示,而权衡时间因素之后的排序让我们能够加倍准确的掌控有潜力的新内容。
以上的体例同样适用于电子商务网站的商品阐发,很多电商网站希望在新商品中挑选有足够潜力的商品进行重点营销,用于打造所谓的"爆款",从而进一步增进订单量的增长提升销售额和利润。对有潜力新品的挑选一方面需要足够敏锐的嗅觉和眼光,另外一方面就要借助数据阐发,而这个时候不克不及不斟酌上面提到的时间因素的影响,记住一个月内销售20件的商品不一定比销售50件的差,关头在于这些商品你是什么时候上架的,使用有效的体例进行评估才能找到真正有潜力有价值增长点的商品。