题记:这是一篇来自Bing核心搜索研发部司理的一篇文章,本文讲诉了Bing的一系列功能改进,这只是一篇普通的搜索功能改进介绍,但通读本文, 我们会发现,搜索引擎会把年夜量精力放在研究人们在搜索时犯的错、如何正确理解用户的意图、以及操纵词库提供更精准的内容上面。所以卢松松相信,无论是bing、谷歌仍是百度,城市这么做。
在Bing,我们许诺提供最好的搜索成果, 虽然研究小组数据挖掘专家,在不竭提供我们的核心拼写和排名算法,可现实是总有某些汗青上的遗留下的缺陷,这部分是因为人们过于依赖搜索所犯的毛病,在这篇文章中,我的同事Bill Ramsey(Bing的研发部司理),将从三个方面介绍缺陷的产生率和严重性:网址查询、追踪链接和相关搜索。
网址查询常见的毛病
这 是搜索缺陷的主要来历之一,涉及到我们所说的网址查询,例如"facebook"或"雅虎网站/邮箱"的查询,乍一看,你可能会认为这是一个简单 的问题。事实成果搜索引擎(Bing)包含数十亿网址,找到一个匹配的网站没多少难度。但在现实中,这种类型的查询实际上相当复杂。因为我们所有人会用无数的 拼写与变体。
例如,"facebook"就有上千个不合的变体,如"facebookc.om","facbook",和 "ww.faceboo.omc",除这类拼写毛病外,人们其实不总是知道正确的URL。例如西南航空公司是southwest,但有些人试图搜 "swair"达到该公司的网页。同时,我们通常看到的网址,如"雅虎网站/邮箱"时,正确是URL是"mail.yahoo"的排列。
即便我们找出了你真正的搜索意图,但歹意网址或垃圾邮件发送者提出了另外一个挑战。它们猎取顶级域名对象如coolmathgames(人实际上是为coolmath-games)的URL。
这是我们的缺陷,我们主要通过三个范畴来解决这类毛病的查询体例:
第一, 正确识别URL,我们可以就遮挡,通过确定的网址,我们避免如包含像searscardcom垃圾成果的问题。
第二, 进行模拟用户毛病测试,通过数十亿的原模型,我们能够解决常见的拼写毛病的网址。
第三, 我们会阐发,寻找像"swair"网站,使用户最终将结束预定网站"southwest"。
另 一个例子,适用于机械学习模式,像"facebooklogin" 的查询相当于 "facebooklogin ",这是很常见的域名后缀输入毛病。别的,像"bed bath and beyond" 输入成 bedbathandbeyond。我们的模型已经适应了这些转变,会主动把搜索成果修改,下面的例子是facebook的用户:
删除多余追踪的相关链接
搜索引擎的关头功能之一,是查询执行拼写和查询扩大的组件,拼写会改正数百个毛病的查询,而搜索呈现的词组(下面的查询框,表白我们改变了用户的查询),我 们把这种改建作为"追索"。例如,如果你输入"关于成功英雄的事迹",我们将显示"包含引号的成功的英雄事迹",但我们可能只显示"关于成功的英雄和事 迹",我们会架设所有关于你的意图。
在曩昔,我们用同义词作为我们追踪链接的一部分,但会常常致使搜索成果偏离主题,致使同义词追踪成为多余的功能, 所有我们在不竭扩年夜"词语"的定义,帮忙其用户更好的进行匹配。
所以这项功能我们已经删除,这个附加的价值不年夜,当Bing改变一些同义词的话,追踪链接可能不成能添加更多的有价值的信息,所以我们将搜索成果的颜色改成黑色。我们将继续努力为用户指定的搜索词语提供更好的查询。
改进相关搜索
相关搜索,这个年夜家很熟悉,在人们初始搜索时,我们会把相关的搜索避免搜索成果左侧,现在调剂到右侧,例如搜索"布拉德·皮特":