会员登录 | 会员注册 | 意见建议 | 网站地图

站长资源综合门户

当前位置:首页 > 搜索引擎 > 略析百度蜘蛛爬行

略析百度蜘蛛爬行

时间:2012-07-31 19:32:22   作者:   来源:   点击:

这几天一直在弄网站和产品推广,不懂的东西很多很多,但推广的那些事中,很多名词都很是的吸引我。首先是搜索引擎优化,体会搜索引擎优化的过程中,碰到了“外部链接”,学习外部链接的时候又偶遇“蜘蛛爬行”,一下子领受了那么多信息,感触感染相当神奇,搜索引擎优化的事也的确不简单。

而今天想跟年夜家谈谈“蜘蛛爬行”这个词。我相信我不是第一个提到它的,因为我是后来者,但我希望我的描述能让更多的人体会这个词,事实成果,很多专业的介绍都相当专业,正因为太专业,而让人感觉无法理解。

首先,介绍一下百度收录。网络世界上有很多很多网站,网站中包含了许许多多的网页,不成胜数,就像我们人一样,60多亿的人口。那么,有些人在世界上很有影响力的,比如成龙、李小龙、麦克杰逊等等,但像我们这些无名小卒,就那么的微贱了。对世界供献年夜的,自然就出了名,那么我可以换句话来讲,在网络上“有供献”的,就会被百度收录,收录的是它的网络地址,被百度收录了,假定收录的威望很多,那你有可能呈现在百度搜索的头条,而头条永远是备受存眷,正因为这个位置谁都想争,随之便产生了搜索引擎优化(搜索引擎优化)。

然后,收录的内容统一放在一个库里,有条有序,而这个库在网络世界中有一个很好的名字“数据库”,至于数据库的原理我就不多说了,这里年夜家主要认识到它是以一定格局保存或记实数据的东西,“蜘蛛爬行“就用到这个东东。再跟年夜家说一下“蜘蛛”,当然不是我们日常所见的蜘蛛,简单来讲它是一个计较机法度,爬行的过程就是实现算法的过程(至于说法,不克不及简单地理解为日常的算术过程,它的意义相当于一个勾当的策划流程),最近仿佛百度更改了搜索算法,但具体怎么改仍是让年夜家慢慢去体会吧。

“蜘蛛爬行”形象一点,有纵向爬行也有横向爬行,也就是我们计较机专业术语的深度遍历和广度遍历,而遍历的内容就是年夜年夜小小的网站或网页,遍历事后蜘蛛主动下载网页,然后将下载回来的网页通过各类法度计较事后才放到检索区,才会形成稳定的排名,然后被百度的收录到数据库里,最后显示在百度网页上。而在这里,百度派出的不止一个“蜘蛛”,而是多个,或十个,或百个、千个,更或万个、几十万个,总之它的数目必定很多,而派出蜘蛛在这里就是计较机术语:线程。显然多个蜘蛛就是多个线程,多线程执行搜索的效率才会高。多个“蜘蛛”一起搜索,就是一个广度上的搜索,一个“蜘蛛”顺着某一个法则走下去,就是一个深度搜索。而网页的搜索深度优先和广度优先,百度蜘蛛抓页面的时候从起始站点(即 种子站点指的是一些门户站点)是广度优先抓取是为了抓取更多的网址,深度优先抓取的目的是为了抓取高质量的网页,这个策略是由调剂来计较和分派的,百度蜘 蛛只负责抓取,权重优先是指反向毗连较多的页面的优先抓取,这也是调剂的一种策略,一般情况下网页抓取抓到40%是正常范围,60%算很好,100%是不成能的,当然抓取的越多越好。我在学习体会的过程中,偶遇了一篇介绍蜘蛛爬行的平安性的文章,里面介绍到了蜘蛛一般会优先选择遍历那些网站,会自动躲开那些网络缝隙,免得自己陷进去,这个挺吸引我的,弱弱记得这篇文章里介绍说:优先遍历静态网站,因为动态网站里可能存在死循环,这样蜘蛛进去就出不来了,不过一般蜘蛛搜索的过程会先检测网站的平安性,发现这些扑灭性的动作,就会避开。我想这点值得年夜家斟酌一下在成立动态网站的过程中,一定要严谨自己的法度代码,免得造成网站缝隙,最后没有蜘蛛敢进去。

今天就介绍到这里,很多不到之处,望各位多多指正!转载请带上:亚洲陶瓷商城:wwwchinachina

分享到:

网友评论