会员登录 | 会员注册 | 意见建议 | 网站地图

站长资源综合门户

当前位置:首页 > 搜索引擎 > 详解搜索引擎的工作原理

详解搜索引擎的工作原理

时间:2012-02-21 15:37:30   作者:   来源:   点击:

一名合格的搜索引擎优化工程师,一定会体会搜索引擎的工作原理,对百度和谷歌的原理几近差不多,只是其中有些细节不合,比如分词手艺等,因为国内搜索一般都是百度,所以我们以后的课程城市针对百度,当然,根本类的只是同样适用于谷歌!

搜索引擎的工作原理其实很简单,首先搜索引擎年夜致分为4个部分,第一个部分就是蜘蛛爬虫,第二个部分就是数据阐发系统,第三个部分是索引系统,第四个就是查询系统咯,当然这只是根基的4个部分!

下边我们来讲搜索引擎的工作流程:

什么是搜索引擎蜘蛛,什么是爬虫法度?

搜索引擎蜘蛛法度,其实就是搜索引擎的一个自动应用法度,它的作用是什么呢?其实很简单,就是在互联网中阅读信息,然后把这些信息都抓取到搜索引擎的办事器上,然后成立索引库等等,我们可以把搜索引擎蜘蛛当作一个用户,然后这个用户来拜候我们的网站,然后在把我们网站的内容保存到自己的电脑上!比较好理解。

搜索引擎蜘蛛是怎样抓取网页的呢?

发现某一个链接 → 下载这一个网页 → 插手惠姑且库 → 提取网页中的链接 → 在下载网页 → 循环

首先搜索引擎的蜘蛛需要去发现链接,至于怎么发现就简单了,就是通过链接链接链接。搜索引擎蜘蛛在发现了这个链接后会把这个网页下载下来并且存入惠姑且的库中,当然在同时,会提取这个页面所有的链接,然后就是循环。

搜索引擎蜘蛛几近是24小时不休息的(在此为它感应悲剧,没有假期。哈哈。)那么蜘蛛下载回来的网页怎么办呢?这就需要到了第二个系统,也就是搜索引擎的阐发系统。

搜索引擎的蜘蛛抓取网页有规律吗?

这个问题问的好,那么搜索引擎蜘蛛抓取网页到底有规律吗?谜底是有!

如果蜘蛛胡乱的去抓取网页,那么就费死劲了,互联网上的网页,每天都增加那么那么那么多,蜘蛛怎么可以抓取的过来呢?所以说,蜘蛛抓取网页也是有规律的!

蜘蛛抓取网页策略1:深度优先

什么是深度优先?简单的说,就是搜索引擎蜘蛛在一个页面发现一个毗连然后顺着这个毗连爬下去,然后在下一个页面又发现一个毗连,然后就又爬下去并且全部抓取,这就是深度优先抓取策略。年夜家看下图

在上图中就是深度优先的示意图,我们假定网页A在搜索引擎中的权威度是最高的,假定D网页的权威是最低的,如果说搜索引擎蜘蛛依照深度优先的策略来抓取网页,那么就会反过来了,就是D网页的权威度变成最高,这就是深度优先!

蜘蛛抓取网页策略2:宽度优先

宽度优先比较好理解,就是搜索引擎蜘蛛先把整个页面的链接全部抓取一次,然后在抓取下一个页面的全部链接。

上图呢,就是宽度优先的示意图!这其实也就是年夜家平时所说的扁平化布局,年夜家也许在某个神秘的角落看到一篇文章,正告年夜家,网页的层度不克不及太多,如果太多会致使收录很难,这就是来对搜索引擎蜘蛛的宽度优先策略,其实就是这个原因。

蜘蛛抓取网页策略3:权重优先

如果说宽度优先比深度优先好,其实也不是绝对的,只能说是各有各的益处,现在搜索引擎蜘蛛一般都是两种抓取策略一起用,也就是深度优先+宽度优先,并且在使用这两种策略抓取的时候,要参照这条毗连的权重,如果说这条毗连的权重还不错,那么就采取深度优先,如果说这条毗连的权重很低,那么就采取宽度优先!

那么搜索引擎蜘蛛怎样知道这条毗连的权重呢?

这里有2个因素:1、条理的多与少;2、这个毗连的外链多少与质量;

那么如果层级太多的链接是不是就不会被抓取呢?这也不是绝对的,这里边要斟酌许多因素,我们在后边的进阶中会降到逻辑策略,到时候我在详细的给年夜家说!

蜘蛛抓取网页策略4:重访抓取

我想这个比较好理解,就是比如昨天搜索引擎的蜘蛛来抓取了我们的网页,而今天我们在这个网页又加了新的内容,那么搜索引擎蜘蛛今天就又来抓取新的内容,这就是重访抓取!重访抓取也分为两个,如下:

分享到:

网友评论