当前位置：首页 > 搜索引擎 > 百度搜索研发部：索引页链接补全机制的一种体例

百度搜索研发部：索引页链接补全机制的一种体例

时间：2012-08-16 20:41:39 作者：来源：点击：

2.3 翻页条的识别和翻页条对应的链接序列区块的识别

为了达到上面的效果，除需要识别翻页系列的排序体例是不是依照时间排序，还需要识别索引页中的翻页条和其对应的链接区块。

因为没有翻页条的识别，spider系统就不成能把这个翻页序列的所有链接绑定起来，整体斟酌它们的状态，那么调剂抓取的成果就是随机的，从而不克不及包管补全效果，当前通过网页中的翻页的一系列特征，通过机械学习的体例来识别网页中的翻页区块和翻页深度，以及上一页，下一页的链接，从而为上述补全机制提供根基数据。

别的一方面，即便有了翻页条的识别，没有对应链接区块的识别，上述补全机制仍是不克不及工作，因为上述机制需要对比发现的链接的调集来判定终止条件，所以，也需要识别翻页条对应的链接区块，从而提供翻页终止条件。

特殊情况下，一个网页可能包含多个翻页条，这种情况更需要进行翻页条和链接区块的对应。

三、建议的体例和标准

当前百度spider系统对网页的类型，网页中翻页条的位置，翻页条对应的索引列表，以及列表是否依照时间排序城市做相应的判断，并按照实际的情况进行措置，可是机械自动的判断体例事实成果不克不及做到100%的识别准确率，所以如果站长能够通过在页面中添加一些百度推荐的标签来标记相应的功能区域，便可以极年夜地提高我们识别的准确率，从而提高spider系统对网站资源发现的即时性，从而提高网站的收录效果。

Spider链接补全当前最关心的是网页的翻页条和翻页条对应的索引链接列表的区块，所以可以通过区块的元素(譬如div，ul)的class属性来标记相应的特征，供百度spider识别使用，建议使用下面的属性来标记：

表1 支持的CLASS扩大属性

譬如百度新闻的页面可以这样设置：

对翻页条对应的区块元素p可以设置class属性百度_paging_indicator，对该翻页条对应的主体链接的区块元素div，设置百度_paging_content_indicator Orderby_posttime，这样翻页条和对应的链接区块就对应起来，并且奉告了百度是依照发布时间排序的，从而可以优化spider系统的抓取行为，改良站点的收录效果。

四、总结

除上面说明的链接发现体例，百度的抓取系统还有很是多的其他手段来包管对有价值网站的收录覆盖率，上述体例只是针对特定索引页类型而采纳的一种特定的手段，互联网站长可以参考使用。站长也可以通过spider的站长平台来体会如何取得更快更好的网站收录效果，譬如直接通过sitemap协议推送链接。站长平台地址：http://zhanzhang.百度/，方才改版，全新功能显现。

分享到：

阅读此篇文章的网友还阅读了：

2012-08-16A5站长网第十八期搜索引擎优化培训班起头接管报名

2012-08-16360网页搜索低调表态称采取自主搜索手艺

2012-08-16活在百度阴影下的草根站长

2012-08-16站长们为什么都喜欢骂百度

2012-08-16搜索引擎优化外链高级策略之资源站群

2012-08-16浅谈百度竞价与搜索引擎优化比照的那些事儿

2012-08-16搜索引擎优化你不克不及不看的另类之谈：网站内容打造

2012-08-16借力发力做推广：操纵搜索成果首页呈现的网页做好持久推

2012-08-16阐发麦包包淘宝网关头词排名消失的原因息争决体例

2012-08-16网站友情链接搜索引擎优化相关因素阐发

站长资源综合门户

百度搜索研发部：索引页链接补全机制的一种体例

阅读此篇文章的网友还阅读了：

网友评论

推荐搜索引擎

热门搜索引擎

随机搜索引擎