会员登录 | 会员注册 | 意见建议 | 网站地图

站长资源综合门户

当前位置:首页 > 搜索引擎 > 蒋鑫鹏:百度搜索算法总结—关头词分词算法

蒋鑫鹏:百度搜索算法总结—关头词分词算法

时间:2012-05-13 16:55:27   作者:   来源:   点击:

以上三点是通常意义上的分词,除此之外,还有更麻烦的分词需要百度措置,见后几点。

D.分字:如果用户搜索“百 度 如 何 排名”的时候,百度也是无可奈何的,因为你不克不及判断出来用户就是在搜索“百度 如何 排名”,还得尊重用户搜索行为,所以,不克不及不进一步将中文词进行分字:“百”“度”“如”“何”“排名”,然后在进行组合分词,组成不合的词组去数据库中 匹配。

E.别音字/错别字:如有人搜索“白度如何排名”实际上是误将“百度”打成“白度”,那么百度还要改正这种毛病,但近期的调剂看,百度不像以前通过词库近 义匹配来进行纠错【而更多的是以用户搜索后阅读的行为堆集的数据来为纠错做准备】(如搜索“白度”的很多用户最后花更多时间在“百度”关头词页面上,那么 百度以后对“白度”的搜索纠错会偏重到“百度”上!

当然,这个词是蒋鑫鹏举例说明,实际上百度搜索“白度”不是这样的,例子可以参看百度的“美规车”查看,百度会提示或说试探你“您要找的是不是: 美规车”),别的,百度对纠错通过搜索下拉框相关词推荐、搜索页面底部“相关搜索”、百度知道(用户量很年夜,是百度搜索的重要弥补)来进行纠错数据的统 计与纠错引导。

F.新词:新词的来历一般有两种:a.近期风行语造成,这个百度的数据库会按照用户搜索行为堆集的数据以及网络热词监测数据来进行调剂弥补到词库;b.语言新词/用户造词,这个主要是靠搜索行为积累的数据调剂,也针对部分语言新词人工作弥补。

蒋鑫鹏再次弥补说明一下,百度其实很累的,它对用户的每一次搜索行为都要进行统计(当然是机械法度记实的体例):一般主要记实搜索的关头词、到访的页面及 到访体例(一般都是链接)、各页面停留时间(之前不容易读取到,现在百度通过阅读cookis、百度账户、IP记实、百度统计【如果网站装了百度统计的程 序,实际上百度很智慧,用各类体例想尽体例进入到网站,比如最近风行的百度分享按钮,这个东西实际上就是最年夜的特务】等年夜量辅助东西来统计),一般测算是 按照搜索后到访的百度提供的快照页面的阅读行为(先打开哪个,然后打开哪个,在哪里停留的时间长,最后从哪里分开百度来实现,百度对一个网页对用户是否 有用的不雅点:在该页面停留时间最长,并最终在此页面阅读完毕后分开百度为首要标准,其次还有在这些页面的互动水平所起的因素。

2、关于语义阐发:

其实这段要说的在上一段已经都提到,列出来无非是将“语义阐发”这一检索行为与“分词”区别开来,语义阐发与分词是相辅相成的,语义阐发更多的成立在分词 与用户阅读行为习惯数据的研究结论根本之上,如前所述,百度通过各类体例年夜量统计用户的行为并针对这些行为及所用的关头词及输入体例索索的统计数据进行分 词的支撑与分词的匹配。

事实成果,再怎么算,那么多网页、每天数十亿次的检索行为,百度仍是难以计较出来的(百度正在通过不竭改进体例及完善机械算法来努力实现这一浩年夜工程),目前 主要采取的是针对热门搜索的抽样统计与其他搜索的随机统计来实现搜索语义阐发(此为搜索引擎优化参谋蒋鑫鹏按照实战中的不雅察做的设想推断)。

百度最难以捉摸透的与其说是排名算法,不如说是语义阐发算法,因为与搜索引擎优化弄不懂百度算法一样,百度同样弄不懂搜索用户的搜索意图(所以百度一直在研究, 一直在调剂,一直在完善,就像搜索引擎优化一直在研究,一直在调剂,一直在完善一样的事理)。捉摸不透是一个原因,更重要的是这些计较不但仅是对文字及分词、 匹配度的研究,更是通过统计学、线性数学、逻辑学、行为学、心理学等众多的学科的精华计较体例连络在一起设计出的算法布局,其实不竭修补完善的,说到这个算 法,百度有一个形容“海量根本算法”,更不消提每种算法的学科自己的难度了,这就是苦逼的搜索引擎优化迟迟不克不及弄懂百度算法的根来历根底因,当然,作为苦逼的 搜索引擎优化,蒋鑫鹏同样也是弄不懂的,如果能弄懂的,年夜多都是数学或计较机天才或顶尖人才,早都去弄自己的研究或发现去了,还至于追在百度后面吹毛求疵?

分享到:

网友评论