会员登录 | 会员注册 | 意见建议 | 网站地图

站长资源综合门户

当前位置:首页 > 搜索引擎 > 让搜索逾越语言的鸿沟 谈跨语言信息检索手艺

让搜索逾越语言的鸿沟 谈跨语言信息检索手艺

时间:2012-06-15 18:24:23   作者:   来源:   点击:

基于共现的体例是最根基、最简单的一种体例。事实上近10多年来,学术界已经提出了很多更加复杂的算法来解决这个问题。由于篇幅有限,这里就不详细介绍了。有兴趣的读者可以读读加拿年夜蒙特利尔年夜学的聂建云传授的著作《Cross-Language Information Retrieval》,那里有更详尽的阐述。

以上着重介绍的都是跨语言信息检索在手艺上是怎么实现的。下面我想说下,我们为什么要进行跨语言检索呢?它对搜索引擎有多年夜的价值呢?我总结了以下几点:

获得其他语言的相关资源

有些资源在中文中不存在,而在其他语言的网页中存在。比文章开首描述的XX用户,希望体会外国的舆论。在这种情况下,我们就需要通过跨语的搜索来满足用户的需求。

获得多种语言同化的资源

在互联网上其实不是每个网页都只有一种语言。很多时候,一个网页中有多种语言的文字呈现。如果只用一种语言的query去检索,可能无法召回这些页面。如果我们将跨语言检索的手艺融入傍边,便可以提高搜索的召回。

获得与文字语言无关的资源

有些资源是跟文字无关的,比如图片、视频、音频。而对这些资源的搜索往往会借助于文字。有了跨语言检索的手艺,我们便可以将满足用户需求的、国外网站上的资源展现出来,来丰富搜索成果。

满足"查全"的需求

在搜索中,我们有的时候需要"查全"所有的相关信息。比如要搜一个专利,我们会希望把各个国度的相关专利都搜出来。在这种情况下,我们就需要跨语的检索,帮忙我们达到这个目的。

当前,跨语言信息检索不但在学术界正在热火朝天地展开,事实上,它早已走入了工业界,真正被应用到了实际搜索傍边。早在2006年,Yahoo首先推出了跨语言搜索办事。随后在2007年,谷歌也相继进入了这一范畴,展开了国际化的搜索。和百度相比,Yahoo和谷歌的确在国际化方面领先很多。其中一个重要原因是,他们都是从英文搜索起家的,而英文是世界上的最风行的通用语言,它到其它语言的翻译资源比较丰富,利于国际化的扩大。不过这没关系,我们比的是谁做的更好,而不是谁做的更早。如今,百度的国际化业务正在如火如荼地展开,相信不久的未来,它将会在搜索国际化过程中饰演举足轻重的角色。

"雄关漫漫真如铁,而今迈步从头越",未来如何,让我们拭目以待吧!

作者:飞旋的世界

文章来历:百度搜索研发部官方博客

分享到:

网友评论