书城计算机一本书读懂大数据
2517600000019

第19章 得数据者得天下,商业竞争中的大数据(3)(1)

人和事物的地理位置同样都可以被定位。汽车安装上无线传感器,地理位置的数据化也会因此带来保险概念的深刻变革。数据当中包含了时间、地点和实际行驶路程的所有信息,保险公司可以依据这些来为车险定价。英国的车主买保险就是依据他自身的驾驶地点和时间,这些和他的年纪、性别和履历关系都不大。这种保险定价的方式能激发人们更好的行为习惯。与此同时保险的基础也发生了改变,从前考虑的是一个群体的风险,而现在则是个性化的风险分析。汽车定位了每个人的地理信息使得某些固定资产投入的模式也有了改变,例如适用公路和其他基础设施的司机和其他人也能够因此分担其中的部分投入。当然上面所说的这些在所有人和事都以数据形式保持持续定位之前还是很难实现的,而这是未来的一种趋势。

莱维斯曾经说过:“预测给我们的是知识,而知识给予我们的是智慧和洞见。”他相信这个系统在用户意识到问题之前一定会预测且解决问题的。

人类身上的数据化实时位置信息运用最为突出。这么多年来无线运营商为了提升移动互联网的服务水平总在收集和分析这些信息。而这些数据的应用范围越来越广泛,很多第三方的新服务也开始倚靠这些数据了,就比如说智能手机不论是否有定位功能,但无一例外地在收集此类信息,另外一部分应用程序的存在目的就在于获得用户的位置信息,像是Foursquare,用户可以在最喜欢的地方“check in”,然后经过忠诚度计划、酒店推荐还有“check in”地点附近的各类推荐来得到好处。

收集用户的地理位置数据的能力无疑已经成了最为有价值的能力,即便是个人层面,他居住的地方和他想要去的地方这些数据都可以用来预测要如何定制广告,何况聚集起这些信息还能发掘事物发展的趋势。例如大量的位置数据可以为公司预测交通情况提供帮助,或许这一点很难想象,高速公路上的手机居然替代了汽车数量和移动速度来预测了相关的趋势。Air Sage每天将收集来的手机用户的150亿条位置信息进行处理,为超过100个美国城市提供各类交通信息。而Sense Networks和Skyhook两个位置数据服务商则是利用地理位置数据来推测每天晚上最繁华或是最热闹的地方聚集了多少人。

只是在商业之外未知数据的应用价值似乎更大。麻省理工学院的媒体实验室人类动力学实验室主任亚历山大·彭特兰(Alexander “Sandy”Pentland)和他的学生南森·伊格尔(Nathan Eagle)就是最先进行“现实挖掘”研究的学者。所谓“现实挖掘”其实就是在收集大量手机数据基础上进行处理,以此来发现和预测人类的行为。他们的一项研究分析了每个人去了哪里,见了谁,还将易于感染流感的人群给区分出来了,这种区分甚至是在易于感染的患者尚未感染之前就做出来了。一旦暴发了严重的流感疫情,无数人的生命就会因此被挽救,很显然要隔离哪些人,到哪里去找到他们是很容易做到的。不过这些数据若是落入坏人手中,那会有什么样的后果难以想象。

无线数据科技公司Jana的创始人是伊格尔,他收集了100多个国家,超过了200个无线运营商的手机收据,这当中有拉丁美洲、非洲、欧洲在内的35亿人口。伊格尔研究的问题很简单,是关于每一周家庭主妇要去几趟洗衣店,用什么肥皂的问题,当然也有在城市当中疾病如何传播的重大问题。此项研究,伊格尔和他的同事们利用非洲预付费用户的位置信息和账户的余额来结合分析,发掘出成正比的是资费和收入,预付费越多的人往往都是富有的人。除此以外,他们还有一个相悖于直觉判断的结果,事实上贫民窟除了是贫困中心外,还会成为经济繁荣的跳板,这当中最重要的一点是,他是在间接利用手机的位置信息,本身和移动通信之间没太大的关系,而这些数据最开始是为了移动通信而产生的。总而言之,一旦有了数据化的位置信息,所有信息的新价值都会应运而生。

数据化的沟通方式

另一个数据化的前沿就是个人化,这牵涉到了人类的关系、经历和情感。很多社交网络公司的主心骨就是数据化的构思。人们在社交平台上寻找和维持朋友和同事关系,每个人日常生活中的无形元素都被提取出来了,从而有了新用途的价值。就是因为这个,有了将关系数据化的Facebook,从前被视为信息存在的社交关系,直到Facebook“社交图谱”的出现才开始被界定为数据了。通过创新的Twitter也创造了一个让人们容易记录和分享自身想法的平台,这在从前总是会成为人们遗忘在时光中的碎片,也因此让情绪有了数据化的可能。过去漫长的经历通过LinkedIn而经历了数据化处理,好比是莫里转化旧的航海日志一般的过程,信息化为现在和未来的预测提供的依据,不论人们认识的是什么人,又可以在哪里找到一份心仪的工作等等。

可惜使用数据的技术还没有成熟。拿Facebook为例,用户得知自己的数据过早被泄露而产生了过激的反应,不过此时的Facebook精明地选择了忍耐。除此之外公司还在继续着数据收集的工作,也涵盖了商业模式和政策上对隐私问题的调整。目前,它面临的指责主要是来自采集了什么,而不是它利用这些数据去做了什么。

它的潜在用途非比寻常是毋庸置疑的。部分消费者信贷领域的创业公司正在打算将自己的信用评分依据转为Facebook的社交图谱。FICO的信用评分系统就正在打算通过15个变量来分析一个贷款者是否有偿还债务的能力。一家匿名的高风险投资公司有一项内部研究,结果显示呈现正相关的是个人偿还债务可能性和他的朋友偿还债务的可能性。老话说得好:物以类聚,人以群分,所以说Facebook正在朝着FICO的方向发展。很明显,在社交平台上的大量数据已经成了放飞想象的新型商务基础,它的意义早已超越了人们的照片分享、状态上传还有“喜欢”按钮。

Twitter也在同时间开始挖掘数据的新用途。从某种意义上来说,2012年每天超过1.4亿的用户发送的4亿条微博就好比是口头的随意零碎。它们通常的情况就是这样,可尽管是这样,Twitter公司还是实现了个人表述数据的数据化,这是从前从未有过的。和其他两家公司Data Sift和Gnip一起,Twitter公司达成了数据出售访问权限的协议。很多公司对人们所发的微博进行句法分析,还有另一种情感分析的技术,这些技术用以获得反馈意见的汇总或是营销活动有着非常有利的判断。

位于英国伦敦的两家对冲基金Derwent Capital和加利福尼亚的MarketPsych也着手对微博的数据文本进行分析,以此为股票投资的信号(此前这项商业秘诀他们从未公开过,不知道是为了倾向良好公司的投资还是做空)。此时两家公司都开始向经营者出售信息。对MarketPsych来说,和Thomson Reuters合作在119个不同的国家提供了18864项的独立指数,像是每分钟更新的心情状态,有乐观、忧郁、快乐、害怕等等,还有很多像是创新、讼诉和冲突的情况出现。