会员登录 | 会员注册 | 意见建议 | 网站地图

站长资源综合门户

当前位置:首页 > 搜索引擎 > 详解搜索引擎的工作原理

详解搜索引擎的工作原理

时间:2012-02-21 15:37:30   作者:   来源:   点击:

1、全部重访

所谓全部重访指的是蜘蛛上次抓取的链接,然后在这一个月的某一天,全部重新去拜候抓取一次!

2、单个重访

单个重访一般都是针对某个页面更新的频率比较快比较稳定的页面,如果说我们有一个页面,1个月也不更新一次。

那么搜索引擎蜘蛛第一天来了你是这个样子,第二天,仍是这个样子,那么第三天搜索引擎蜘蛛就不会来了,会隔一段时间在来一次,比如隔1个月在来一次,或等全部重访的时候在更新一次。

以上呢,就是搜索引擎蜘蛛抓取网页的一些策略!那么我们上边说过,在搜索引擎蜘蛛把网页抓取回来,就起头了第二个部分,也就是数据阐发的这个部分。

数据阐发系统

数据阐发系统,是措置搜索引擎蜘蛛抓取回来的网页,那么数据阐发这一块又分为了一下几个:

1、网页布局化

简单的说,就是把那些html代码全部删失落,提取出内容。

2、消噪

消噪是什么意思呢?在网页布局化中,已经删失落了html代码,剩下了文字,那么消噪指的就是留下网页的主题内容,删失落没用的内容,比如版权!

3、查重

查重比较好理解,就是搜索引擎查找重复的网页与内容,如果找到重复的页面,就删除。

4、分词

分词是神马东西呢?就是搜索引擎蜘蛛在进行了前面的步调,然后提取出正文的内容,然后把我们的内容分成N个词语,然后排列出来,存入索引库!同时也管帐算这一个词在这个页面呈现了多少次。

5、链接阐发

这一个步调就是我们平时所做的做烦躁的工作,搜索引擎会查询,这个页面的反向链接有多少,导出链接有多少以及内链,然后给这个页面多少的权重等。

数据索引系统

在进行了上边的步调之后,搜索引擎就会把这些措置好的信息放到搜索引擎的索引库中。那么这个索引库又年夜致分为以下两个系统:

正排索引系统

什么是正排索引?简单的说,就是搜索引擎把所有URL都加上一个编号,然后这个编号对应的就是这个URL的内容,包含这个URL的外链,关头词密度等等数据。

搜索引擎简单的工作原理概况

搜索引擎蜘蛛发现毗连 → 按照蜘蛛的抓取策略抓取网页 → 然后交到阐发系统的手中 → 阐发网页 → 成立索引库

OK,这节课可算是完了。太不容易啦我,今天只是对搜索引擎工作的一个简单的讲说,因为搜索引擎的很是复杂的一个系统,不成能几十分钟便可以全方位的讲道,我们在进阶或高级教程中会慢慢的讲到!

分享到:

网友评论