16.关联思维
目前,大数据成为各行各业人士口中出现频率最高的热词之一。有人认为,大数据的到来,加上云计算的成熟,让人们从高频率、巨量信息、不同结构和不同类型的数据中获得有价值的信息。
这些有价值的信息里,还透露出一个信息,就是大数据的关联性。举个最简单的例子,你的好友购买了一件连衣裙,把链接发给你,你就会看到这款连衣裙的网页中有其他同类产品。再比如,你在网站上搜寻一款东西,网站会立即给你推荐,其他人所选的是哪一款。
从数据中寻找出一定的相关关系,通过这种关系,大数据会做出预测,从而告诉大众结果。这就是大数据方法论的核心思想。
麻省理工学院气象学家洛伦兹曾向人们介绍过一种现象—“蝴蝶效应”。大致讲的是:一只南美洲亚马孙河流域热带雨林中的蝴蝶,偶尔扇动几下翅膀,两周后,美国得克萨斯州掀起了一场龙卷风。从表面上看来,似乎这之间毫无关系,但结果告诉我们,即使是微小的事情也极有可能与千里之外的一件事情发生关联,并带来改变。
而在大数据时代,任何事情都可能会发生。这些事情从表面看风马牛不相及,但其内在往往具有一定的关联性,并与我们的生活息息相关。在以往,大多的寻人启事都石沉大海,但在互联网时代,寻人帖子一经在大型网站上发出,会很快引起四面八方的注意,每个人都会提供自己知道的线索。将这些线索分析,整合,就能够得到这个人最后出现在什么地方、某人曾经在哪里遇到过,以及这个人为什么走失等;另外,你也很难想到,互联网上的微博评论会与某家公司的股票价格有着一定的关联性。在脸谱网首次公开募股当天,在推特上的情感逐渐转向负面的时候,脸谱网的股价也于开盘25分钟后下跌。当推特上的情感转向正面的时候,脸谱网股价在8分钟后又迅速反弹。当股市接近收盘、推特上的情感转向负面的时候,脸谱网的股价又开始下跌。这两者之间究竟因为什么联系在一起,并互相影响着?这,似乎并没有太多人探究,不过,忽略这种相关性,不得不说是一种损失。
对于关联性的一些例子,我们能举出很多。它让我们不得不相信,大数据之间的关联性,已经不能够被人们所阻挡。比如,前面提到的那个家喻户晓的啤酒与尿布的案例。如果单独一个产品,或许没有任何惊喜,但两个产品一旦联系起来,那发生的化学反应就值得人们注意了。这就好像,过生日一定要有蛋糕,有蛋糕的话就一定要有浪漫的氛围和温馨的东西。那么,很自然的,当人们都选择与爱人一起过生日时,鲜花、戒指、饰品等产品就有了销路。而当人们都选择与亲人一起过生日时,鲜花、服饰、贴心小礼物、给父亲的剃须刀、给母亲的丝巾等商品就会热卖。
这一切的一切,都是关联思维在起作用。似乎,这些东西不被关联在一起,单一的东西过于另类和枯燥了。
除了一些生活中的小细节,还有更为精准的数据预测。一家公司正在从社会化媒体上抓取各种数据,通过寻找影响票房成绩的相关因素预测票房。该公司针对电影选取30个参数,对演员选取50个参数,内容包括:在什么地方成长,在什么地方学习,成绩如何,什么时候毕业,曾扮演过的角色,曾参演电影的收视率和票房怎么样,以及各种绯闻,等等。就是根据这些数据和参数,2012年下半年,电影《1942》上映前夕,在外界对这部电影一片赞誉和看好,纷纷预测票房将突破7亿元时,这家公司预测出电影《1942》的票房是3.8亿元,会亏本。在当时,制片方认为这家公司是在“黑”他们。但事实告诉人们:这不是在“黑”,而是在陈述事实。最后,《1942》的票房真的只有3.6亿元。
在整件事情的过程中,人们只知道那家公司运用了奇怪的预算方式以及各种数据,却忽略了,一切事物都是有关联性的。比如,观众对题材的喜爱程度,对演员的喜爱程度,对演员演技的评价,对导演的信任度,对宣传的买账与否,以及有多少人愿意花几十元钱去电影院观看。还包括在同一时期,有没有与其竞争的影片,有没有比其更新颖的剧情以及热点,等等。
这些,都至关重要。而大多数人只知道“是什么”,不知道“为什么”。进入大数据时代,海量的数据汹涌而来,互联网信息的更新速度之快和环境变迁的速度之快,远快于人们思考和验证的速度。与此同时,关联性也越来越突出。当然了,相关关系不能准确地告诉我们什么事情会发生,但它会提醒我们,有些事情正在发生。在许多情况下,这种提醒已经足够强大。如果我们知道什么时候是买机票的最佳时机,就不用费劲去查询价格的波动规律。如果我们知道什么地方要下雨或是晴天,就会提前决定带伞及准备好出行衣物。
这些,都是关联性的作用带来的。
17.双刃思维
2013年,前不久,为了推广手机“生活圈”功能,淘宝网公布了一组“奇葩”数据:国内最爱吃鸭脖子的生活圈是杭州市的日晖新村,这里的用户全年用于买鸭脖子的费用有6万多元;最“重口味”的生活是镇江市的花山湾生活圈,这里的用户一年买了5000多个榴莲;在一年内,暨南大学的“生活圈”购买了一万多箱方便面,支付金额近150万元;温州龙湾区×路附近,全年花费在情趣内衣方面的费用大约是人均2.5万元;2013年,浙江义乌×二区全年花费在文胸的费用超过290万元,是全中国在这一年消费量最大的生活圈;宁波海曙区×家园中的用户,每个人均在淘宝网的年消费金额在2.8万元以上,是目前2013年国内在淘宝上消费“最土豪”的小区;另外,2013年,杭州×新村全年用于购买金条的金额在960万以上,是中国金条消费量最大的生活圈。
……
为什么说这是一组“奇葩”数据呢?是因为手机淘宝可以借助于地理位置和收货地址等数据,鉴定某地区生活圈的消费特征。而这,正是大数据的“努力结果”。在以往被看作“核心秘密”的数据,如今却为了迎合消费群体的“八卦”心理开放功能。但与此同时,这个结果是真实的吗?有不少人对其质疑,甚至觉得所披露的数据还不够劲爆。下面的这些数据或许会让人在八卦的同时,感到一丝担忧。的确,如果你生活在被调查研究的小区,本小区的生活圈被爆爱吃鸭脖子或爱买金条,而你却恰恰不爱吃鸭脖子或买金条,那你是不是觉得很不自在?再或者说,如果碰到相熟的人调侃:你们小区怎么买了那么多情趣内衣,是不是你也作贡献了?那被问的人,该如何回答?
可以说,即便淘宝网的做法没有违反什么规定,也会让人觉得被侵犯隐私权了。针对一个群体的生活信息披露,就相当于把这个群体中的所有人都放在众人的面前,成为供众人观赏和分析,甚至是调侃的对象。在这个过程中,没有人会管你是不是果真如其披露的那样,也没有人在乎你是不是愿意。
淘宝网到底有没有权力公开这些数据?公开这些数据,会不会涉及个人隐私问题?很显然,这些都是不能忽视的问题。更何况,这些数据得出的结论也是可疑的。举个例子:如果一座大厦花费391万元购买安全套,按照每只价格3元计算,这就意味着大厦全年消费安全套共计130多万只。如果这座大厦有1000人,那人均消费1300只,如果有2000人,人均650只……这不科学!
针对这个疑问,有媒体进行了实地调查,结果发现这座大厦为商住两用楼,住户仅180户。由此,我们可以肯定,该大厦所产生巨额安全套交易量与住户的“性福生活”没有一丁点儿关系。也许是有商家的仓库设在这所大厦里。除了安全套的事情之外,其他的数据也可以以此类推,从而推翻先前的调查结果。
不可否认的是,数据库中的资料是巨大而详细的。只要企业有需要,大数据就可以精确无误地统计出各种消费数据。小到你网购了些什么,消费了多少金额,大到一个地区网购交易量和消费特征。
或许,这就是“大数据时代”具备的独特魅力。它不须通过问卷调查,更不需要人工的脑力计算,却可以还原社会原本的轨迹。正如《大数据时代》的作者维克托·迈尔·舍恩伯所揭示的那样,在“大数据”面前,最重要的不再是精确度和因果关系,而是探索事物之间的相关性,发现其潜在的巨大价值。
由于淘宝网公布的数据延续了传统的思维逻辑,再加上里面有迎合营销需要的结论,结果漏洞百出,闹出了不小的笑话。与此同时,这个案例也暴露出“大数据时代”的隐患:只要你在网络上活动,无论你在做些什么,都会被“记录在案”,甚至不知在什么地方,又以哪种形式被人揪出来。更可悲的是,你想不想出来的主动权不是由自己说了算,而是由网络运营商来决定。
由此看来,“大数据”是一把双刃剑,人们在享受大数据带来的机遇时,也不得不面临一个残酷的问题,以及可能爆发的大数据危机。
作为全世界共同的财富,大数据时代将是一个守护者和监督者,将以自身的“法器”,守护着这片土地,为人类创造出一个共同美好的世界!
18.价值思维
进入2012年后,无论是IT行业,经济学家,还是媒体,“嘴里”都是“大数据”这个词,似乎不讨论“大数据”,就已经落伍了。
“大数据”真的那么具有吸引力吗?
事实上,大数据就是资源,就是空气,就是水,就像石油或煤炭一样,其价值不言而喻。网络用户每点击一次鼠标,每一次刷卡消费,都已经参与了数据的生成。可以说,每一个用户都是数字的生产者和消费者。
在大数据时代,凭借如此精细的监测手段,完全可以知道一个人或一辆车的行踪,从而产生精细化的数据,用以描述各种物体、社会和整个环境的行为。有了这些数据,大大减少了社会的复杂度。
在商业领域,一家美国的公司已经利用大数据,在亚马逊的云平台上处理跟天气相关的信息,从而帮助农业种植者保障自己的收益。我国搭建的中小企业信息平台,汇集了几千万家中小企业。通过对企业数据信息的深度挖掘和分析,能够对经济运行的状况进行准确的预警,从而做出正确的应对决策。
在金融领域方面,大数据分析早已成为一种流派,连大数据分析师都已经成为在美国华尔街基金股票分析和高频数据交易等领域最抢手的人才;在中国,阿里巴巴集团旗下的金融业务,也开始用大数据来发放“信用贷款”。
在行业中,甚至有人预言:谁拥有对数据的发掘能力,谁就能占领下一个十年全球经济发展的制高点。由此,大数据的价值可见一斑。
曾有人看到EMC(易安信)的一则广告—When Cloud Meets Big Data(当云计算遇到大数据),当时觉得很新奇。但此后的日子里,大数据已经成为国内IT行业口口相传的热门词汇,尤其是最近,Splunk成功上市的消息,释放了大数据在资本市场的潜力。
令各个行业兴奋的是,大数据时代带来了比以往机会更大的发展空间。这包括以下几个方面:
第一个方面,是技术创新的新空间。
2012年,北京拓尔思(TRS)信息技术股份有限公司围绕云计算、大数据、移动互联网和社会化计算开展了新产品的研发,随后相继推出了支持移动应用、TRS大数据管理系统V7.0和社会化计算新功能。与此同时,还在多媒体内容的深度挖掘和分析、大数据的可视化展现,日志挖掘分析等技术领域进行研发和创新。对结构化数据、非结构化数据和Hadoop/NoSQL等的认识理解和技术水平的提高,将跃升到全新的层面。
第二个方面是商业模式的创新。
从目前来说,拓尔思的主要收入还是来自软件产品的销售和技术服务。但是以TRS SMAS舆情分析云服务为代表的在线服务模式已经初见成效。大数据+云计算的新模式将大大降低用户的初始门槛和使用成本,大大扩宽用户的范围,优化服务的效果和体验,让大数据应用走出成本高、投资大、资源封闭的信息孤岛,让智慧常伴众多普通用户的左右,从而创造最大的价值。
第三个方面是信息资产的经营。
拓尔思信息技术股份有限公司的主营业务一直是软件产品的销售和服务,大数据时代给人们带来了新的机遇。此后,拓尔思成立了专门从事数据处理和经营的部门,汇聚了一批从事数据采集、处理和挖掘分析的专业人士。信息资产的经营极大地扩展了拓尔思的业务,比如,以往拓尔思以TRS数据中心为依托,承担了为用户提供专业数据分析和咨询报告的很多服务。相信在不远的未来,拓尔思在信息资产方面会有更多的机会和空间。
第四个方面是客户关系管理。
客户管理应用的主要目的是按照客户的属性,从各个角度挖掘和分析客户,以此来获得新的客户或提高客户的忠诚度、降低客户流失率、提高客户消费等。
有不少商家将飞信作为初级CRM(客户关系管理)工具来使用。比如,将客户们都添加到一个群里,接着在群里发布新产品的消息、促销产品通知,完成售前售后服务等。或者是,按照客户的行业进行分类,针对不同的客户采取不同的促销活动和服务方式,提供具有针对性的服务,再将提供线上支付的通道打通,形成闭环,打造一个实用的客户关系管理系统。
第五个方面是个性化精准推荐。
在运营商内部,根据不同的用户推荐各类不同的业务或应用是非常常见的。比如,IPTV视频节目推送和应用商店软件推荐等,通过关联算法、文本摘要、情感分析等算法进行计算分析后,可以将计算分析结果延伸、应用到商用化服务上。接着,再利用数据挖掘技术帮助客户进行精准营销,其未来的盈利可以来自客户增值部分的分成。
以“垃圾信息”为例子。其实,在“垃圾信息”中并不都是“垃圾”。那为什么会称之为“垃圾”呢?那是因为收到的人不需要,所以会将它当作垃圾处理掉了。而通过用户行为数据进行分析后,可以有针对性地给需要的人发送需要的信息,这样“垃圾短信”就成了有价值的信息。在麦当劳里,人们可以在手机上下载优惠券,去餐厅就餐时,出示优惠券就可以享受优惠。接着,运营商和麦当劳就会搜集相关的消费信息,比如,经常买哪款食物,喜欢的口味,去哪家店消费,消费次数的多少等,从而将优惠券精确地发送给用户。总之,大数据可以成就IT企业,也可以成就其他领域,因为其价值是不可估量的!