会员登录 | 会员注册 | 意见建议 | 网站地图

站长资源综合门户

当前位置:首页 > 搜索引擎 > 搜索引擎优化er值得体会的搜索引擎索引和分词手艺

搜索引擎优化er值得体会的搜索引擎索引和分词手艺

时间:2012-03-16 18:53:44   作者:   来源:   点击:

在网络公司做过法度开辟的朋友都知道,我们通常常使用的数据库搜索手艺就是把用户输入的词汇,跟数据库中的某个或多个字段里的内容进行比较,同样,搜索引擎的运行原理简单来讲也就是这样:

用户输入一个词汇,搜索引擎从他的数据库中找到匹配的内容,再以有序的排列展现给用户,搜索引擎每天就是不厌其烦地不竭重复这些操作。看似一切很正常,我们用数据来阐发问题——

全球网民按20亿计较,全球所有网站的网页先假定是50亿个。

按每人每天搜索1次(也就是1个关头词,假定都是不重复的)

那么搜索引擎每天要从50亿个网页中搜索比对20亿个关头词。

呃。这个听起来很可骇,你能想象吗?想象这个数据如此庞年夜,但搜索引擎每次的正常搜索时间都是不到一秒。的确,在这个过程中,依照我们传统的全文搜索体例,是不现实的。仔细看下下图,并注意"索引库查询"这几个字。

在诠释什么是索引库和索引库在搜索引擎中起到什么作用前,我们同样举个形象的例子加以参考下:

我们在念书时,教员在授课过程中,常常会说,请同学们翻到第几页,看下第几段,想起来了吗?欢愉并没有奈的校园生活是否记忆犹心了~_~,言归正传。在教员发出让你翻到第几页看第几段这个指令时,就是一种索引在运行了,这里的索引是第几页和第几段,有了这两个索引,即便你的书本厚达1000页,也可以在短时间里定位到具体的那一段话。

而搜索引擎自己的索引库的组成元素就是很多个词汇,汉字约有12W个,由这些汉字所组成的词语将近10W个,再说说英文,英文26个字母,组成的词汇暂且算作100W个吧,在讲索引库元素的排序体例之前,我们再进行这段数据的阐发:

中文:50亿÷10W=5W

英文:50亿÷100W=5000

搜索引擎措置5W或5000个记实,是很是容易的一件事了。

明白了索引库的重要性,再剖析下索引库的组成形式:

在搜索引擎看来,再富丽的网站,也是一堆代码堆砌而成的,拿下文的代码来看:

颠末搜索引擎的阐发后,去除HTML代码,留下的是这些词汇,

那么其中的这些词汇就会进入到搜索引擎的索引库傍边,而这些进入索引库的每个词汇后面又有很多个网站,就比如新华字典的目录索引页一样,笔划数是10的,通过索引快速查到,笔划数是20的,也可以通过索引快速查到。

搜索引擎就是通过成立这样的索引库,才能在用户搜索某个关头词时,快速做出返回页面的查询。(而至于排名的前后,我们不在本文中多说了)

再来简单讲下分词,上面提到的多少多少个词汇,这个就是分词了,但这些是通过我们人眼判断的,搜索引擎是如何进行分词的呢?搜索引擎再短长,也只是法度,谷歌的中文分词手艺是采办第三方公司得来的,而百度的分词手艺是自创的,我们可以理解为百度事先把几W个词录进去,也多是通过汉字的一定排列体例自由组合而成,这个不是我们关心和所能研究的,我们要体会的仅仅是分词这个概念。

体会了分词这个概念后,在我们做搜索引擎优化时,也一定要通过搜索引擎的角度,让自己从网页的概况看到底层的收录抓取原理。

【尊重原创,分享不雅点。来自芝麻开门网络科技原创文章,转载请标明文章来历 — .51zmkm/news/27.html】

分享到:

网友评论