距离上一篇搜索引擎优化的数据阐发已颠末了好久了,最近感觉应该写一些实际点的内容看看搜索引擎优化到底怎么做。 先明确一些根基点,一个网页被收录与否,有两个因素
是否被爬虫爬过
页面质量是否过关
上一篇文章已经提过了收录率这么一个指标,很多网站都懒得去做这个指标,“我看看site的数据不就好了!”,事实上没有这个指标,很多工作就无从下手。从数据中找出问题,操纵数据指导解决方案,阐发数据验证工作功能。 最近看了《深入浅出数据阐发》这个本,感觉不错,把数据阐发的体例讲得很生动,建议有兴趣的从事数据阐发的同学可以买本看看。 任何数据阐发由,目标->阐发->评估->决定计划,四个环节组成。
目标:我们想看一下网站的收录情况如何,在搜索引擎优化方面是否还有提高的机缘。
阐发:收录情况什么算好什么算坏,是不是用一些指标来权衡?网站的收录情况是不是过于笼统,是不是应该细分下各个页面的收录情况?
评估:于是我们需要下面一些数据
网站的页面层级关系
各个层级页面带来的搜索引擎优化流量
各个层级页面的收录情况如何
搜索引擎优化流量的占比可以从谷歌 Analytics中过滤出来。
页面数量可以从数据库取得,或通偏激车头or自制小脚本抓取统计。
收录率可以将获得的页面通过东西进行搜索,火车头也可以。
这边告白下zero的东西:.gnbase/forum.php?mod=viewthread&tid=11468&highlight=%CA%D5%C2%BC%B2%E9%D1%AF
问题立马凸显!
1+2级目录页带来了年夜量的流量,收录率不是很好,优化收录的流量提升突破口在此!
产品页面数量很多,收录也不是很抱负,可是带来的流量有限,除收录问题,还有页面内容的问题,本文中先不管它了。
决定计划:我们的结论是立即展开行动对目录页面进行收录的优化。
看到这边,似乎刚起头的目标:“通过优化收录提升流量”
演酿成了新的目标:“如何提高目录页面的收录量”
这边能不克不及再次通过数据阐发的体例进行搜索引擎优化呢?
谜底是必定的!
我们再来重新走一遍 目标->阐发->评估->决定计划 的过程
目标:提高目录页面的收录量
阐发:通过本文起头的有关收录的两个因素,我们需要查抄一下,网页是否被爬虫爬行过,网页的质量是不是过关。
1. 关于爬虫的情况,我们需要阐发日志,才能确定。于是我们从日志中拆分一系列数据看看页面是否真的被爬行过。
2. 由于页面质量似乎是一个很难权衡的值,于是我们可以用相同模板下的:
已被爬行的页面数量/已被爬行并且被收录页面数量
来评估该模板页面质量对收录的影响年夜小。如果被爬的页面都被收录了,那至少说明这套页面的内容搜索引擎还算认可。(实际情况远比这个复杂,并且收录后也有可能因为质量问题被删除,但总比什么参照都没有要好,对吧!)
评估:(敏感信息用编号取代,均为真实数据)
先看一下爬虫日志的情况,通过Shell脚本,我们可以阐发出。
目录总计被爬行的次数为13000次左右
不重复的目录爬行次数为5500次左右
频道A下的目录几近被100%抓取过至少1次,频道B的目录抓取也不错,有70%被至少抓过一次。
其余频道下的目录被抓取的覆盖率不到30%
不要感觉这个成果很神奇,其实很多网站城市面对这样的糟糕问题,只要你把数据不竭的细分,细分,再细分,总会不雅察出一些眉目的。
关于日志阐发,不要迷信任何的日志阐发软件,那都是给懒人用的,自制脚本+Excel才是王道,可以拆分显示出任何你想要的数据,当然,甚至可以连Excel都不要。
然后,我们统计了一下被抓得最频繁的频道A和频道B,目录页的收录率