会员登录 | 会员注册 | 意见建议 | 网站地图

站长资源综合门户

当前位置:首页 > 新闻资讯 > Facebook“三棱镜计划”有助于解决大数据问题

Facebook“三棱镜计划”有助于解决大数据问题

时间:2012-08-26 15:57:33   作者:   来源:   点击:

  在发布会上,Facebook的杰-帕里克就Corona给出了一些细节,但很明显在Facebook内部已经开始使用了,而且成为了不可缺少的环节。帕里克表示,Facebook运行着世界上最大的Hadoop服务器簇,存储的数据超过了100PB,每30分钟可以处理的数据超过了105TB。

  然而,Facebook上增长的数据不久就会超过这些服务器簇的承载能力。9亿用户无时无刻不在发布新的状态更新、照片、视频和评论等信息。这也就是帕里克的团队创建Prism的原因,该软件可以让他们在多个数据中心之间运行一个庞大的Hadoop服务器簇。

  帕里克表示,从传统意义上讲,你无法在不同的地理位置上运行Hadoop,因为网络数据包无法以足够快的速度在不同服务器上进行传输。他说,“Hadoop有一个很大的限制,即所有的服务器必须要彼此互联。这一系统属于非常紧密的耦合,如果这些服务器之间的传输延迟了几十毫秒,整个系统都会面临崩溃。”

  但是,Prism会改变这一切。简单来讲,Prism会自动复制数据,并在不同地点的服务器之间传输数据。帕里克表示,“它使得我们可以在物理上将这种大规模的数据仓库分割开来,但是依然可以以一种整体的眼光来管理这一系统。我们可以将数据仓库任意移动,这取决于成本、性能或技术。我们将不再受到处理能力的限制,而在单一数据中心里经常出现这种问题。”

  Prism让人想起了谷歌过去一个叫做“Spanner”的平台。Spanner的知名度并不高,谷歌一般将很多基础工作放在系统的底层进行处理。但在2009年,谷歌在一次对外的声明中却把这一平台描述成“一种存储和计算系统,可以扩展谷歌所有的数据中心,并可以按照网络限制和使用行为,自动传输和复制数据并进行计算。”这些网络限制包括带宽、丢包率、处理能力和“失效模式”。如果一个数据中心崩溃了,Spanner即可自动将数据转移到另一个地点。

  谷歌曾表示,这一平台“会将谷歌所有机器上的资源自动进行分配”。在全球范围内,谷歌总共拥有36个数据中心。

  帕里克承认,Prism的基本思路同谷歌的Spanner差不多,但是他也很小心的表示,他并不是很了解Spanner以及它的用途。帕里克说,和Spanner类似,在数据中心Facebook崩溃时,Prism可以立即转移数据。

  MapR的托莫-希兰表示,除了谷歌或Facebook,其他公司目前还不能使用具有这种功能的软件。但是,希兰也指出,虽然目前有许多公司运行着多个服务器簇,但是他表示其实并没有这个必要。他说,“并不是所有公司都像谷歌那样,需要处理如此庞大的数据。”

  Facebook目前尚未真正部署Prism,帕里克拒绝表示什么时候会开始进行。但是,他却说,在某种意义上,Facebook希望可以将这一平台进行开源,针对Corona也可能会这么做。的确,现在没有多少公司像谷歌或Facebook那样需要解决在线数据雪崩的问题,但在未来却存在这种可能性。帕里克说,“在未来,科技公司将面临严峻的数据爆炸问题。”

分享到:

阅读此篇文章的网友还阅读了:

无相关信息

网友评论

热门新闻资讯