会员登录 | 会员注册 | 意见建议 | 网站地图

站长资源综合门户

当前位置:首页 > 搜索引擎 > 搜索引擎蜘蛛爬行规律探秘之一蜘蛛如何抓取链接

搜索引擎蜘蛛爬行规律探秘之一蜘蛛如何抓取链接

时间:2011-12-09 12:15:10   作者:   来源:   点击:

搜索引擎蜘蛛,对我们来讲很是神秘,本文的配图使用蜘蛛侠的原因就在于此。当然我们也不是百度的也不是谷歌的,所以只能说探秘,而不是揭秘。本文内容比较简单,只是给不知道的朋友一个分享的途径,高手和牛人请绕行吧。

传统意义上,我们感触感染搜索引擎蜘蛛(spider)爬行,应该近似于真正的蜘蛛在蜘蛛网上爬行。也就是比如百度蜘蛛找到一个链接,顺着这个链接爬行到一个页面,然后再顺着这个页面里面的链接继续爬……这个近似于蜘蛛网,也近似于一棵年夜树。这个理论虽然正确,可是不准确。

搜索引擎内部是有一个网址索引库的,所以搜索引擎蜘蛛是从搜索引擎的办事器解缆,顺着搜索引擎已有的网址爬行一个网页,并将网页内容抓取回来。页面收集回来之后,搜索引擎会对其进行阐发,将内容和链接分隔,内容暂时先不说。阐发出来链接之后,搜索引擎其实不会马上去派蜘蛛进行抓取,而是把链接和锚文本记实下来交给网址索引库进行阐发、对比和计较,最后放入网址索引库。进入了网址索引库之后,才会有蜘蛛去抓取。

也就是如果呈现了某个网页的外链,其实不一定会立即有蜘蛛去抓取这个页面,而是会有一个阐发计较的过程。即便是这个外链在蜘蛛抓取之后被删除,这个链接也有可能已经被搜索引擎记实,以后还有抓取的可能。并且下次如果蜘蛛再去抓取这个外链所在页面,发现链接不存在了,或外链所在页面呈现了404,那么只是削减了这个外链的权重,应该不会去网址索引库删除这个链接。

所以说已经不存在的页面上的链接,也有作用。今天就分享这些,以后继续跟年夜家分享我自己阐发的内容,如果有不准确的处所,请年夜家批评指正。

转载请注明来自逍遥博客@Libo搜索引擎优化,本文地址:http://libo搜索引擎优化/1060.html 除非注明,逍遥博客文章均为原创,转载请注明出处和链接!

分享到:

网友评论