在地球任意处所捡起一块石头,都可以验出铁元素。可是,说世界遍地都是铁矿一定是胡扯。只有石头中铁含量逾越一定比例,而石头数量又达到相当范围,这堆石头才能称为铁矿,人们才会对它产生投资开采的兴趣。如果铁矿石埋藏不是太深,开采和运输的本钱不是太高,市场有持久稳定的采办需求,那么铁矿开采的兴趣才会酿成行动,成为一个有利可图的商业勾当。
同样的事理也适用于对年夜数据由来的阐发。有了互联网,也就有了网络数据。随着网民的增加和网络办事的日益丰富,网络数据也就丰富起来。做个网站,上面枚举些办事,无论它们是新闻资讯,仍是产品商品,或是娱乐游戏,只要有用户问津,就会给办事提供商留下些使用记实。无论这些数据如何简陋孤立,但只要有用户ID和点击量,便可以支撑起网络告白商业模式。只要有用户注册信息和支付账户,便可以支撑起电子商务和会员制办事的商业模式。随着新增网络用户增速的下降和同质性网络办事数量的增加,强逼网络办事提供商起头从粗放式经营走向邃密化经营,试图通过提高市场推广的投入产出比来提高收入和利润。在走向邃密化经营的种种努力中,一个被普遍采取的体例就是数据挖掘。
曩昔由于年夜部分互联网公司是以产品与办事为中心,所以取得的根基上是单一产品与用户之间的行为记实,缺少产品之间,用户之间,以及更复杂的产品逻辑和用户行为逻辑的数据,也就是业内俗称的数据的非布局化,非关系化或碎片化。所以,虽然一些公司里有些专家在做数据整合与阐发,也有一些专门从事数据挖掘的公司,东西和专业办事,但总的看起来,数据收集,整理,挖掘所需的本钱与产生的效益相比,性价比不高,吸引力不年夜。就像前面说到的贫铁矿一样,含金量不高的数据无论范围多年夜,挖掘多深,也是形同鸡肋,食之无味,弃之惋惜。
这一场合排场到了WEB2.0时代产生了根赋性的转变。以FACEBOOK为例,可以看出年夜数据是如安在日常办事中自我形成:首先,用户需要注册才可使用,这一注册ID可以通行于数以千万计的网站之中(FACEBOOK CONNECT),也通行于数以百万计的第三方应用之中(Open Platform)。这就组成了用户身份的确定性和唯一性。其次,用户与用户之间直接与间接的双向互动关系组成了动态的,稳定的,不竭变动与成长的社会网络,信息传播和产品与办事的推广的脉络清晰,布局分明。第三,开放平台的众多通用标准和接口诱导广年夜的第三方应用提供商使用统一的数据格局,布局和逻辑,使得数据的汇合与整合相对简单容易。第四,网站架构的精练性(例如WALL和NEWFEED)使得众多平台功能所产生的数据自动耦合,使复杂的社交数据能够有序形成,便于整理阐发。第五,TIMELINE,OPENGRAPH,CREDIT等一系列机制将千姿百态,扑朔迷离的用户网络行为整合成时空逻辑清楚,行为逻辑可查的行为数据链。凡此种种,FACEBOOK自觉或不知觉地成了网络业内第一个能够生成年夜数据的公司。当然,这不是说它是生成年夜数据的唯一形式或它已经对阐发操纵年夜数据很成功了。
正在成为年夜数据拥有和使用者的公司不止FACEBOOK一家。苹果在操作系统和网络终端上正在努力形成年夜数据的生成之地,谷歌在操作系统,搜索系统和谷歌+平台上正在努力整合众多产品,形成可资操纵的年夜数据,亚马逊正在通过网络平台,云计较平台和阅读终端形成一个电子商务垂直范畴的年夜数据堆积地。国内一些互联网公司也在有意无意之中,在一些较低层面上努力着,例如弄些云计较,输入法,阅读器,杀毒平台,以及各类木马,COOKIE之类的东西,试图获得和整合更多的用户行为数据。总之,增强数据布局性,加年夜数据关系性,把碎片化的数据用种种手段整合起来并加以操纵,这是财产成长的一个显著走向。
就整个财产而言,网络业在处于年夜数据时代的萌芽早期。在商业模式和经营水平对年夜数据的依赖水平上,除搜索,整体上低于电信业,金融业,证券业,保险业,航空业,酒店业等传统财产的水平。可是,网络业的后发优势也十分明显。随着其他传统财产的互联网化,随着广年夜用户的日常工作与生活越来越依赖于互联网,一个由网络业牵头,整合各行各业,全面系统地记实与掌控亿万用户的行为模式的年夜数据系统三五年内会有个雏形,一个巨年夜的富铁矿正在形成。至于谁会抢占先发地位,推失事实标准,成长崭新的办事模式和商业模式,就要看业内人士的悟性,努力与造化了。