此文接上文百度算法总结详细请点击:蒋鑫鹏:百度算法总结
一、关于中文分词:
1.中文分词难度阐发
首先要说明下的是:普通用户的搜索与做搜索引擎优化或更年夜说熟悉网络搜索用户的搜索习惯是很是不一样的,而恰巧普通搜索用户是百度搜索的根本气力。在开首赘述 这一点是蒋鑫鹏为了表达其对百度搜索算法中的中文分词的重视。因为,对百度谷歌这样的第二代搜索引擎来讲,采取的检索手艺主要是依靠关头字来 匹配的,而用户对关头词的理解与机械法度对关头词的理解是有很年夜距离的。
在中文分词方面百度胜过了谷歌,这是百度取胜谷歌的关头因素之一,中文的分词比英文要复杂很多(同样与中文分词一样麻烦的重要语言 还有日语、韩语、俄语,这也是谷歌没体例在这几个地区取胜的原因之一),蒋鑫鹏在这里因为篇幅不做赘述,有兴趣的朋友可以研究一下拉丁语系(以英 文为例)的造句与中文造句的区别,中文造句不但近义词很多,并且语序转变无常,副词太多(主谓宾之外的定状补,叹词等等)。
简单举个例子“百度如何排名”“百度是如何排名的”“百度怎么排名”“百度是怎么排名的”“百度如何排位”“百度怎么排位”“百度按什么排名”“百度靠什 么排名”“百度的搜索是怎么排位的”……这几个短语短句至少都包含一个意思“百度搜索成果的排名是什么法则(原理)”,除此之外,每个句子都有其他的含 义,如这些句子还包含有“怎么做百度排名(实现这个目标的体例)”“百度是怎么进行搜索排名的(原理实现的过程)”……
拿上面的例子来讲:当用户输入以上短句时(年夜大都情况下,普通用户把百度当作是万能的,所以才搜索搜索引擎优化开来这么不适合法则的搜索行为),百度要迅速的响应出用户需要的成果,这个时候,百度面临的核心问题是:
A.首先要知道用户是要搜什么(语义阐发,见“二”);
B.其次因为百度的检索体例目前仍然以关头词匹配手艺为主,所以要对用户的搜索进行分词(下一段将阐发百度如何分词);
C.然后百度要通过度词分出的成果,去数据库中检索匹配的快照;
D.上一步只是检索出来,还要进行第四部的排名,这个时候已经不是挑战百度的难题了(虽然在搜索引擎优化看来,这一步确实是很是艰巨的)
E.第五步要将取得的成果返回到搜索页面给用户使用,并且要完成其告白的投放(百度竞价告白),并要适当推广自己的产品(百度知道、百度文库……)写的有点乱,搜索引擎优化参谋蒋鑫鹏在此致歉,没找到更好的述说体例,望朋友们整剃头扬光年夜。
2.百度中文分词体例:
百度对中文的分词不可是年夜量的用户搜索(这点不合于谷歌,百度事实成果是植根于中国文化的,对中文更体会),并且还有庞年夜的中文词典数据库作支撑, 并且动态插手了搜索热词,搜索行为造词等手艺,【从近期百度算法的调剂看,百度比以前加倍尊重用户的搜索行为,就是用户的输入为首要,百度改正次要,这点 那很重要哦】下面以实例来讲,用户搜索“百度如何排名?”时的分词:
A.自然朋分:包含标点符号、空格引起的朋分,这是首要因素,比如或“百度 如何排名”这样的搜索行为会被百度首先划分为“百度”、“如何排名”,这一点是必定的,要理解用户搜索的行为意图,首先是要尊重用户的搜索行为;(这是 搜索引擎优化参谋蒋鑫鹏按照实战中的不雅察总结出的,做搜索引擎优化的很多朋友可能没注意到,在此提个醒)
B.中文词库朋分:不难理解,“百度如何排名”将被分为“百度”“如何”“排名”这几个词,因为这是中文词典里存在的词,百度有庞年夜的中文词典库支撑,这个不是难度;
C.分词组合分词:B中的分词显然是不敷的,要更能理解用户意图,必须包管语义连贯,那么那三个词可以组合成“百度如何排名”;“百度如何”+“排名”; “百度排名”+“如何”;“如何排名”+“百度”以及这几个词倒置的组合,重要水平依照顺序优先原则,紧接着是倒序和双向序列的分词组合,阐发切分有个基 本的原则就是最少的切分。