数据阐发系统,是搜索引擎整个工作流程的第二个系统,也就是既搜索引擎蜘蛛抓取系统的后一个系统,搜索引擎的数据阐发系统主要用来措置蜘蛛抓取回来的网页,今天呢,小强会给你详细的讲授,搜索引擎的数据阐发系统的工作流程及几个重要的知识点。我们方才说了,数据阐发系统主要是阐发蜘蛛抓取回来的内容,那么怎样阐发呢?主要涵盖以下几点。
网页布局化
什么是网页布局化呢?我们要知道网页,是由html组成,搜索引擎蜘蛛最后抓取回来的,也都是html的代码页面,简单的说,网页布局化,就是删失落html代码,然后留下其中的内容,如下图,图1是网页布局化之前,图2就是网页布局化之后。
网页布局化之前
网页布局化之后
网页的内容消噪
在网页布局后之后,依然存在着一些搜索引擎不需要的内容,比如说导航栏的菜单文字,底部的版权信息等,这些呢,都是搜索引擎不需要的,搜索引擎只需要内容,那么在这个时候就会对网页布局化之后的内容进行消噪措置,简单的说,消噪就是把内容之外的文字全部删失落,比如菜单上的文字,底部版权的文字等等。
那么搜索引擎的数据阐发系统怎么判断哪些是菜单文字哪些是版权信息呢?
其实很简单,就是对比,比如一个内容页,除内容不一样,其他的内容几近一样,比如导航,每个页面都有导航,并且文字也一样,版权也是,当然也会按照html的源码去阐发。
对页面的查重
对页面的查重其实很好理解,就是搜索引擎蜘蛛在抓取你这个网站所有的页面中,用你这个页面去对比抓取的页面,看看内容是否有重复,如果有,那么就删失落。
分词
分词是什么东西呢?简单的说,就是把一句话切割成N个词语,分词又分为中文分词和英文分词,搜索引擎有一本自己的数据库字典,里边有很多多少词语,然后对比着字典进行分词;其中还有一点,就是在分词的时候,会把一些无用的字去失落,比如,的、啊等等。
页面对应URL的阐发
这个是网页阐发系统的最后一个步调,主要是按照一些外在因素、内在因素对这个页面对应URL的权重值的判断,比如外链、内链等,这个影响到这个页面关头词的排名。
本文地址:.shizhanqiang/2012071065.html