为了维护自身的利益,一些欧美大型网站联合起来与谷歌谈判,要求谷歌“有所为有所不为”,于是就有了Robots协议。该协议的核心思想就是要求Robots程序不要去检索那些站长不希望被直接搜索到的内容,并将约束Robots程序的具体方法规范成格式代码,就成了Robots协议。一般来说,网站是通过Robots.txt文件来实现Robots协议。
国内使用Robots协议最典型的案例就是淘宝网拒绝百度搜索。此外还有大量的用户注册、邮件等信息,都利用Robots协议来防止这些内容在互联网上被搜索到。
不过,绝大多数中小网站需要依靠搜索引擎来增加流量,因此通常并不排斥搜索引擎,也很少使用Robots协议。去年京东商城(微博)屏蔽一淘网抓取数据时,曾指责一淘网破坏了Robots协议。
技术工程师Joey在接受《每日经济新闻》采访时表示,谷歌、百度是通过都是自己的服务器不停地在网上抓内容进行索引,而360的模式是让每个使用360浏览器的电脑成为360的蜘蛛爬虫,把浏览的内容上传到360服务器上做索引。
Robots协议约束力几何?
此前,在多次“互联网大战”中,360的隐私问题均被竞争对手列为质疑的焦点。
两年前,奇虎360公司两名网络工程师利用360公司系统收集的用户信息,通过360服务器云计算后台破解了市政一卡通系统的后台密码,并远程为自己和3位同事的一卡通恶意充值2600元。2011年1月,360收集隐私数据被谷歌爬虫抓取,结果包括网民在百度搜索的关键字、淘宝购物记录、金蝶等企业内部财务网络数据等链接数据“裸奔”于互联网上。
对于此次业界的质疑,360认为纯系百度 “污蔑”。360方面表示,其网站后台、订单等敏感数据在每个搜索引擎中都是存在的。百度通过人为设置钓鱼陷阱网页来污蔑360上传用户数据,目的是为了阻止360进入搜索领域,维护其市场地位。
不过,很多的中立行业观察人士认为,该事件的重心并不在口水仗,而是作为“行业自律”的Robots协议是否需要更强有力的法律约束?
资深互联网观察家洪波指出,搜索引擎无视Robots协议,直接抓取未经授权的信息数据,这样的行为如果不能从法律和监管上及时制止,将引发行业大乱。”
鉴于国内像360和搜狗这样既做浏览器又做搜索的公司比较少,可以对比同样既做搜索引擎又做浏览器的巨头:谷歌。
一位浏览器技术人员对《每日经济新闻》表示,谷歌的Chrome浏览器也会根据用户访问的历史记录在首页给出“最常访问的网站”,但不会优先出现在搜索结果中。
实际上,在“3B大战”进入第二轮时,国内互联网大佬的态度已经发生了转变。
搜狗CEO王小川表示,欢迎360做搜索,行业更加开放,给网民更多选择。而在此之前,王小川对“3B大战”的态度是“进攻百度防范360”。
目前尴尬的是,Robots协议并没有上升到一定的高度。此前有消息称,政府相关部门已找百度、360、搜狗各方了解事态进展,希望能够从中调停,并防范整个事件升级。从目前情况看,相关部门正在对360违反Robots协议的事件进行研究。
“所谓Robots协议,其实就是谷歌自己制定的一个协议规范,并不是各大搜索厂商的共识或统一的协议,也从来没有任何一家国内搜索引擎服务商公开承诺遵守Robots协议或签署类似的协议或声明。”所以说,Robots协议连个行业规范都算不上,更别说什么国际标准了,即便在美国,也只有Google把它当回事。“上述不愿意透露姓名的浏览器技术人员表示。
“云”与“端”的较量
主打云概念的搜索巨头百度,与以客户端为武器的360交战,颇具深意。
事实上,百度之所以取得目前的搜索市场地位,一个很重要的原因就是其一直在布局中文内容平台,包括知道、百科、贴吧等。百度的“护城河”在“云”,本质上是一家媒体,其战略思路不是仅提供单纯的搜索,而是从具备分类、整理的搜索引擎转化为提供、组织内容的平台。
“在单纯的搜索技术提高前景有限的前提下,提供大量的内容使百度具有了巨大的用户黏性和流量来源。即使用谷歌搜索,首页结果里也有大量的百度知道,百度百科(微博)与百度贴吧的内容。”曹悦平表示。