第2章大数据到底是什么

书签收藏评论目录封面

对于“大数据”研究机构Gartner Group（高德纳咨询公司）给出了这样的定义。大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的“前世今生”

“大数据”是什么？要回答这个问题首先要看看数据是怎样产生的。

在信息化时代里，我们每个人都在贡献数据。上网、打电话、发短信、听歌、拍照片、发帖子、看视频，都会产生数据，就像涓涓细流汇聚成江河湖海，“大数据”出现了。

近年来，数据大爆炸的速度快得惊人。马云曾感慨地说：“大家还没搞清PC的时候，移动互联网来了，还没搞清移动互联网的时候，大数据时代来了。”

大数据时代来得太快，以至于人们对大数据的定义都有N多种。

按照美国国家标准与技术研究院发布的研究报告的定义：“大数据是用来描述在我们网络的、数字的、遍布传感器的、信息驱动的世界中呈现出数据泛滥的常用词语。大量数据资源为解决以前不可能解决的问题带来了可能性。”

按照业界权威高德纳咨询公司的定义：“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。”

根据百度百科词条的定义：“大数据，或称巨量资料，指的是所涉及的资料量规模巨大到无法通过目前主流软件工具，在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。”

“大数据”到底有多大？目前通行说法，“大数据”至少要达到PB量级。其中，1PB=22.3万张DVD光盘的容量，相当于800个人类大脑记忆总量，或90个人身体细胞数目总和。1PB的MP3歌曲可以连续播放2000年。

美国互联网数据中心指出，互联网上的数据每年将增长50%，每两年便将翻一番，而目前世界上90%以上的数据是最近几年才产生的。全世界的工业设备、汽车、电表等设备上有着无数的数码传感器，随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化，也产生着海量的数据信息。

早在1980年，著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中，将大数据赞颂为“第三次浪潮的华彩乐章”。不过，大约从2009年开始，“163大数据”才成为互联网信息技术行业的流行词汇。

如今，大数据技术可以帮助人们做很多以前做不到的事情。比如，国外某警察局利用大数据预测犯罪的发生几率，可以精确到街区500平方英尺的范围内，有针对性地预防，从而使该地区犯罪率明显下降；某统计学家利用大数据预测总统选举结果；某大学利用手机定位数据和交通数据建立城市规划等。

大数据时代，海量的数据已经成为一种“矿藏”。据测算，三年前，2011年全球大数据产值51亿美元；预计三年后，2017年全球大数据产值将达到534亿美元。目前大量“掘金者”在数据的海洋里挖掘、采集、提炼、分析，从而得出有价值的信息提供给政务的、商务的以及各个领域的买家，从而形成了大数据产业生态圈。

“书同文，车同轨。”任何新兴产业要健康发展，首先要尽快建立大家共同遵守的标准。目前国内外大数据标准化工作已经起步。全国信标委已经对标准化工作进行梳理，从基础、技术、产品、应用等不同角度进行分析，形成了大数据标准体系框架，并发布了《大数据标准化白皮书》。

大数据的四个来源

当今世界，大数据无处不在，它影响到了我们的工作、生活和学习，并将继续施加更大的影响。

大数据用于描述这样的数据组，其规模超出了日常软件在可容忍期限内获取、管理和加工数据的能力。一些网络技术领先的公司持续地投资于昂贵的大数据技术，成效显著。大数据使得创新型公司变成了经营新方法的率先接受者，经营更为成功。通过大数据的分析挖掘，公司可以发现新的经营模式，对工艺加以改进。例如，在获悉消费者行为后，可以将发现用于某些改变，如降低成本或增加销售，就会产生价值。在任意大的数据组中应用统计方法可以发现有用信息，将这些信息商业化即可获益。

大数据时代一切在变，应对之策是改变一切。经营方式发生了变化——制定决策变得与开展行动深度融合；运用信息的方式发生了变化——从处在经营的边缘变成了处于所有方面的中心；技术发生了变化——从批处理到实时处理，从分割到融为一体；人们工作的方式发生了变化——从在命令和控制模式下运作到在合作环境下负责自己的信息和交互应用。

根据麦肯锡全球研究所的分析，利用大数据在各行各业能产生显著的财务价值。美国健康护理利用大数据每年产出3000亿美元，年劳动生产率提高0.7%；欧洲公共管理每年价值2500亿欧元，年劳动生产率提高0.5%；全球个人定位数据服务提供商收益1000多亿美元，为终端用户提供高达7000亿美元的价值；美国零售业净收益可增长6%，年劳动生产率提高0.5%～1%；制造业可节省50%的产品开发和装配成本，营运资本下降7%。

当今大数据的来源除了专业研究机构产生大量的数据外（欧州核子研究组织（CERN）的离子对撞机每秒运行产生的数据高达40TB），与企业经营相关的大数据可以划分为四个来源：

1.越来越多的机器配备了连续测量和报告运行情况的装置。几年前，跟踪遥测发动机运行仅限于价值数百万美元的航天飞机。现在，汽车生产商在车辆中配置了监视器，连续提供车辆机械系统整体运行情况。一旦数据可得，公司将千方百计从中渔利。这些机器传感数据属于大数据的范围。

2.计算机产生的数据可能包含着关于因特网和其他使用者行动和行为的有趣信息，从而提供了对他们的愿望和需求潜在的有用认识。

3.使用者自身产生的数据、信息，人们通过电邮、短信、微博等产生的文本信息。

4.至今最大的数据是音频、视频和符号数据。这些数据结构松散，数量巨大，很难从中挖掘有意义的结论和有用的信息。

大型以Internet为核心的公司，如Amazon,Google,eBay,Twitter和Facebook正使用后三类海量信息认识消费行为，预测特定需求和整体趋势。第一类数据可能产生较少的业务，但可以推动某些经营模式实质变革。例如，汽车传感数据用于评价司机行为会推动汽车保险业的深刻变革。

大数据改变了所有行业全部公司的经营方式。从对市场的理解到如何挖掘经营信息，大数据能洞察每项转变。一个致力于收集和分析大数据的行业业已形成，对现有公司产生了深刻影响。据有关调查，有10%的公司认为在过去的五年中，大数据彻底改变了它们的经营方式；46%的公司认同大数据是其决策的一项重要支持因素。

大数据的四个特征

大数据（Big Data）是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合”。业界通常用四个V（即Volume、Variety、Value、Velocity）来概括大数据的特征。

1数据体量巨大（Volume）。截至目前，人类生产的所有印刷材料的数据量是200PB（1PB=210TB），而历史上全人类说过的所有的话的数据量大约是5EB（1EB=210PB）。当前，典型个人计算机硬盘的容量为TB量级，而一些大企业的数据量已经接近EB量级。

2数据类型繁多（Variety）。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据，非结构化数据越来越多，包括网络日志、音频、视频、图片、地理位置信息等，这些多类型的数据对数据的处理能力提出了更高要求。

3价值密度低（Value）。价值密度的高低与数据总量的大小成反比。以视频为例，一部1小时的视频，在连续不间断的监控中，有用数据可能仅有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。

4处理速度快（Velocity）。这是大数据区分于传统数据挖掘的最显著特征。根据国际数据公司（IDC）的“数字宇宙”的报告，预计到2020年，全球数据使用量将达到35.2ZB。在如此海量的数据面前，处理数据的效率就是企业的生命。

根据麦肯锡旗下研究部门麦肯锡全球学会2011年发布的一份报告显示，预计美国需要14万～19万名拥有“深度分析”专长的工作者，以及150万名更加精通数据的经理人，无论是已退休人士还是已受聘人士。

造成数据人才供不应求的一个显著的背景就是如今“大数据”的爆发正在得到从企业界到政府层面越来越多的重视。

2012年2月，《纽约时报》撰文称，“大数据”正在对每个领域都造成影响，在商业、经济和其他领域中，决策行为将日益基于数据分析做出，而不是像过去更多地凭借经验和直觉。而在公共卫生、经济预测等领域，“大数据”的预见能力已经开始崭露头角。

一个最新的例子就是Facebook在2012年5月18日的IPO。在5月18日之前，几乎没有人敢说自己有把握去预测Facebook上市当天股价的走势，但是Twitter却神奇般地做到了。

社交媒体监测平台DataSift监测了Facebook IPO当天Twitter上的情感倾向与Facebook股价波动的关联。例如，在Facebook开盘前Twitter上的情感逐渐转向负面，25分钟之后，Facebook的股价便开始下跌。而当Twitter上的情感转向正面时，Facebook的股价在8分钟之后也开始了回弹。最终，当股市接近收盘时，Twitter上的情感转向负面，10分钟后Facebook的股价又开始下跌。最终的结论是：Twitter上每一次情感倾向的转向都会影响Facebook股价的波动，延迟情况只有几分钟到20多分钟。

这仅仅只是基于社交网络产生的大数据进行“预见未来”的众多案例之一，事实上“大数据”所能带来的巨大商业价值已经被人认为将引领一场足以匹敌20世纪计算机革命的巨大变革。

2012年2月，《华尔街日报》发表文章《科技变革即将引领新的经济繁荣》，文中罕见地做出大胆预见：“我们再次处于三场宏大技术变革的开端，他们可能足以匹敌20世纪的那场变革，这三场变革的震中都在美国，他们分别是大数据、智能制造和无线网络革命。”

《华尔街日报》的断言并非无的放矢。在2012年年初的瑞士达沃斯论坛上，一份题为《大数据，大影响》的报告宣称，数据已经成为一种新的经济资产类别，就像货币或黄金一样。

更加值得关注的则是，奥巴马政府已经把“大数据”上升到了国家战略的层面。根据美国白宫2012年3月29日新闻，奥巴马政府宣布投资2亿美元启动“大数据研究和发展计划”，希望增强收集海量数据、分析萃取信息的能力。

上一次白宫亲自参与推动信息技术产业的大手笔还是2010年希拉里提出的“国家宽带战略”，“大数据研究和发展计划”也被认为是1993年时任美国副总统戈尔宣布的“信息高速公路”计划后美国政府政策层面的一次“狂飙突进”，将“大数据”上升到国家意志将在下一个10年带来深远影响。

在互联网和通信技术飞速发展20年后，一个属于“大数据”的时代，真的来了。

数据海洋中的商业

商业的发展天生依赖数据来作出决策，但是自古至今，从未有一个时代出现过如此大规模的数据爆炸，如今的整个商业世界，已经变成了飘浮在数据海洋上的巨轮。

全球市值最大的连锁餐饮企业麦当劳、零售业中的巨无霸沃尔玛、在线零售的巨头亚马逊，这三家这个时代炙手可热的企业，如果说它们之间存在着什么相关性的话，会是什么呢？

数据。麦当劳的强大在于它卖的不仅仅是汉堡而是在从事一个精准选址，对数据深入挖掘的“房地产生意”；沃尔玛的可怕在于其早在20世纪70年代末就开始通过挖掘数据来改善自己的供应链，时至今日，在其连锁超市的表象之下早已成为一家巨大的数据公司；亚马逊就更不用说了，贝索斯从不掩饰他对于数据中心的看重，对于这家电商巨头来说，数据就意味着一切。

以沃尔玛为例。早在1969年沃尔玛就开始使用计算机来跟踪存货，1974年就将其分销中心与各家商场运用计算机进行库存控制。1983年，沃尔玛所有门店都开始采用条形码扫描系统。1987年，沃尔玛完成了公司内部的卫星系统的安装，该系统使得总部、分销中心和各个商场之间可以实现实时、双向的数据和声音传输。

采用这些在当时还是小众和超前的信息技术来搜集运营数据为沃尔玛最近20年的崛起打下了坚实的地基。如今，沃尔玛拥有着全世界最大的数据仓库，在数据仓库中存储着沃尔玛数千家连锁店在65周内每一笔销售的详细记录，这使得业务人员可以通过分析购买行为更加了解他们的客户。

国外零售巨头对于数据资产的重视也在近年来影响着国内的电商企业。凡客诚品CEO陈年对《商业价值》杂志记者表示，“现在的凡客是一家数据公司”。

2011年凡客内部最大且最重要的一次调整就是想要实现互联网的系统化和数字化的管理，为了让任何“数字”变得可预测和可控，凡客成立了数据中心。

一开始，大家对数据中心的需求就是得到一些简单的数据，比如库存的数量。但是他们慢慢发现，得到数据之后就会面临一些相关的问题，如怎么配合进货等，于是数据中心就开始根据不同的问题，不断寻找数据与数据之间关联，并最终把各种关系搭建起来。出现库存周转慢的问题怎么办呢？数据中心就又得分析与库存相关的数据关系。除此之外，数据中心还会去研究新产品的上架与新用户增长的关系，每上线一个新品与它能够带来的用户二次购买的关系等。

电商行业的现金收入源自数据，而婚恋网站的商业模型更是根植于对数据的研究。

比如，作为一家婚恋网站，百合网不仅需要经常作一些研究报告，分析注册用户的年龄、地域、学历、经济收入等数据，即便是每名注册用户小小的头像照片，这背后也大有挖掘的价值。

当然，视数据为生命的不仅限于这些每天产生海量数据的零售和互联网行业，即便是在看上去不那么“理性”的运动产业，数据依然是至关重要的宝藏。

好的运动鞋最关键要做到的是什么？更好的材料？更轻便的鞋身？更酷的款式？都不是，衡量一双运动鞋好坏的重要标准就是在于它是否更了解消费者的双脚。正因如此，早在20世纪七八十年代耐克和阿迪达斯就纷纷建立了自己的运动实验室，用来搜集并研究用户的双脚。其中最有名的就是Nike的“运动厨房”（Nike Kitchen），Nike现在所有知名的技术产品都出自于这里。

Nike近两年十分火爆的Nike ID业务就是充分挖掘数据潜力的例子。Nike ID业务是允许消费者基于耐克的一些已有产品进行个性化的改造，消费者可以在线上对产品进行改造，选择自己喜欢的颜色搭配、面料，甚至绣上自己的名字缩写等，完成自己的设计后，Nike就能为消费者量身打造一款独一无二的运动鞋。通过Nike ID业务，Nike公司不仅能够了解到用户的喜好，同时这些宝贵的数据对于Nike将来研发新品都是非常重要的参考。

从数据到大数据

人类自从诞生以来就在源源不断地创造着数据，商业文明的发展自始至终都离不开对于数据宝藏的挖掘，在商业世界中，数据一直都不是什么新鲜的东西，但是当海量的数据积累所造就的“大数据”时代到来，经济的新的增量已经逐渐掀开了面纱。

尽管数据挖掘的工作人类已经做了几十年，但是“大数据”与我们通常所说的“数据”还是有显著的不同。

1997年，一台名叫“深蓝”的计算机击败了当时的国际象棋冠军Garry Kasparov。2011年，另一台计算机Watson在广受欢迎的美国电视智力竞赛节目《Jeopardy！》再次战胜前几届的冠军。

这两件事很好地诠释了数据与大数据这两个不同的商业时代。诞生于数据时代的深蓝，通过将象棋的游戏规则转化为以0和1形式存在的算法，借助全新并行处理技术，计算可能的走棋结果，如今，几乎任何一台计算机都能够通过扫描数据库而将结构化查询与答案匹配起来。而在大数据相关技术的帮助下，Watson则能够回答那些以人类说话方式提出的不可预测的问题，Watson能够“读取”大量人类知识载体，包括百科全书、报告、报纸、书籍等。它以分析形式评估证据，假设应答结果，并计算每种可能性的可信度。它在数秒内提供一个最有可能正确的答案。另外，它在做这些工作时，速度和准确性都超过世界一流的人类对手。

大数据的迅速增长及相关技术的发展正在带来全新的商业机遇。据《麻省理工学院斯隆管理评论》和IBM商业价值研究院联合举行的2011年新智能企业全球高管调查和研究项目指出，绝大多数企业都已抓住了这些机遇。2011年，58%的企业已经将分析技术用于在市场或行业内创造竞争优势，而2010年这一比例仅为37%。值得注意的是，采用分析技术的企业持续超越同行的可能性要高两倍。

对于任何企业来说，数据都是其商业皇冠上最为耀眼夺目的那颗宝石。伴随着传统的商业智能系统向纵深应用的拓展，商业决策已经越来越依赖于数据。然而，传统的商业智能系统中用以分析的数据，大都是企业自身信息系统中产生的运营数据，这些数据大都是标准化、结构化的。事实上，这些数据只占到了企业所能获取的数据中很小的一部分——不到15%。

通常情况下，企业的数据可以分为三种类型：结构化数据、半结构化数据和非结构化数据。其中，85%的数据属于广泛存在于社交网络、物联网、电子商务等之中的非结构化数据。这些非结构化数据的产生往往伴随着社交网络、移动计算和传感器等新的渠道和技术的不断涌现和应用。企业用以分析的数据越全面，分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力，并将其与已知业务的各个细节相融合。

在沃尔沃集团，通过在卡车产品中安装传感器和嵌入式CPU，从刹车到中央门锁系统等形形色色的车辆使用信息，正源源不断地传输到沃尔沃集团总部。“对这些数据进行分析，不仅可以帮助我们制造更好的汽车，还可以帮助客户们获取更好体验。”沃尔沃集团首席信息官Rich Strader说。

现在，这些数据正在被用来优化生产流程，以提升客户体验和提升安全性。将来自不同客户的使用数据进行分析，可以让产品部门提早发现产品潜在的问题，并在这些问题发生之前提前向客户预警。“产品设计方面的缺陷，此前可能需要有50万台销量的时候才能暴露出来，而现在只需要1000台，我们就能发现潜在的缺陷。”Rich Strader说。

在美国最大的医药贸易商McKesson公司，对大数据的应用也已经远远领先于大多数企业，将先进的分析能力融合到每天处理200万个订单的供应链业务中，并且监督超过80亿美元的存货。

对于在途存货的管理，McKesson开发了一种供应链模型，它根据产品线、运输费用甚至碳排放量而提供了极为准确的维护成本视图。据公司流程改造副总裁Robert Gooby说，这些详细信息使公司能够更加真实地了解任意时间点的运营情况。

Gooby解释说：“但是，大多数模型旨在简化物理世界，而这个模型极为复杂，并且包含我们的现实世界的全部数据。它允许我们量化业务运作的根本性变化所产生的影响的细节。这个模型并不是一种简化版。”

McKesson利用先进分析技术的另一个领域是对配送中心内的物理存货配置进行模拟和自动化处理。评估政策和供应链变化的能力帮助公司增强了对客户的响应能力，同时减少了流动资金。总体来讲，McKesson的供应链转型使公司节省了超过1亿美元的流动资金。

同样对大数据情有独钟的，还有中国移动集团山西有限公司，通过大数据分析，对企业运营的全业务进行针对性的监控、预警、跟踪。系统在第一时间自动捕捉市场变化，再以最快捷的方式推送给指定负责人，使他在最短时间内获知市场行情。

“全面获取业务信息非常重要，有时候甚至能颠覆常规分析思路下做出的结论。”中国移动集团山西有限公司业务支撑系统部经理王峰说。比如，一个客户使用最新款的诺基亚手机，每月准时缴费，平均一年致电客服三次，使用WEP和彩信业务。如果按照传统的数据分析，可能这是一位客户满意度非常高、流失概率非常低的客户。事实上，当搜集了包括微博、社交网络等新型来源的客户数据之后，这位客户的真实情况可能是这样的：客户在国外购买的这款手机，手机中的部分功能在国内无法使用，在某个固定地点手机经常断线，彩信无法使用——他的使用体验极差，正在面临流失风险。

“我们正在打破传统数据源的边界，更加注重社交媒体等新型数据来源。通过各种渠道获取尽可能多的客户反馈信息，并从这些数据中挖掘更多的价值。”王峰说。

社交网络、移动互联网、企业信息化在最近这几年中都得到了迅猛的发展，不断产生的海量数据将越来越影响企业从战术到战略制定的各个方面，这是一个巨大的挑战，当然更是机遇，因为在大数据的背后，将是IT厂商跨越到商业智能的绝佳机会。

IBM当年之所以完成从PC厂商开始向商业智能服务商的成功转型，一个重要的原因就是其较早预见到了大数据的商业机遇并果断布局。纵观IBM近5年10亿美元以上级别的大手笔收购多与如何有效处理大数据有关。2007年，IBM花费20亿美元收购了商务智能软件供应商Congnos；2009年7月，IBM斥资12亿美元收购SPSS软件，这是一家集数据整理、分析功能于一身的统计分析软件；2010年9月，IBM以17亿美元的代价将数据库分析供应商Netezza收之麾下——自2005年以来，IBM投资160亿美元进行了30次与大数据有关的收购。这一系列布局，为IBM业绩带来了稳定高速的增长。2012年，IBM股价突破200美元大关，累计涨幅超过9%，3年之内股价翻了3倍。

同样在抢占大数据蛋糕份额时占据先机的还有甲骨文。面对越来越多的海量数据所带来的商业潜力，甲骨文的策略是在2011年的Open World大会上推出了Oracle大数据机和Exalytics商务智能服务器，构建自己的大数据平台解决方案。除此之外，早在2008年，甲骨文就花费33亿美元收购商业智能解决方案提供商海波龙（Hyperion），2009年以74亿美元巨资鲸吞另一家IT巨头SUN公司。

而在大数据实时分析的领域中，SAP也不甘人后。2011年SAP推出了HANA平台以应对大数据实时分析的挑战。和IBM、甲骨文这些对手一样，SAP也一直没有停止通过大手笔的收购在大数据领域进行战略布局。2007年，SAP花费68亿美元收购全球商业智能软件霸主Business Object。2010年5月，SAP以58亿美元的代价并购数据库厂商Sybase。围绕着大数据的这些大手笔的战略布局也让SAP收到了回报，2011年，SAP全年利润翻番，达到34亿欧元，造就了该公司40年历史上最好的业绩。

此外，EMC、Informatica、Taredata等公司，也都是大数据领域不可忽略的势力。

正在异化的核心竞争力

大数据时代，一些传统的商业思想正在被颠覆。这其中最为重要的，就是必须将数据作为企业的核心资产。

在进入大数据时代之前的漫长的商业社会进化过程中，企业脱离于人才而单独存在的智商基本是零，也正因为如此，人才变得异常重要，并一度被视为企业的核心竞争力——一方面，企业的智商被分布存储在这些人才的大脑中；另一方面，企业需要借助人才的商业智商，提升自身的企业智商。一定程度上，企业智商的高低，完全取决于人才的商业智商。

与此同时，由于企业智商被分布存储于人才的大脑中，信息的分享与价值挖掘受到极大制约，很难完全发挥。

在大数据时代，人才固然重要，却并非企业智商最重要的载体——数据才是企业智商真正的核心载体。这些能够被企业随时获取的数据，可以帮助和指导企业全业务流程的任何一个环节进行有效运营和优化，并帮助企业做出最明智的决策。在大数据时代的企业智商，才是真正被企业全部掌控的智商，而这一切的基础就是形形色色的数据。

IDC在其关于大数据的报告中指出，领军企业与其他企业之间最大的差别在于新数据类型的引入。那些没有引入新的分析技术和新的数据类型的企业，不太可能成为其行业的领军者。

在大数据时代，商业世界就如同漂浮在数据海洋上的巨轮，作为商业世界中的个体，企业要想做到游刃有余就必须如熟悉水性一般熟悉和用好海量的数据。大数据在重新定义企业智商的同时，对企业核心资产也进行了重塑。在过去，衡量企业最重要的资产无外乎土地、流动资金和人才等几个要素，如今，数据作为企业一项更加重要的资产将直接关系到企业的发展潜力。

在完成对企业智商和核心资产的重塑之后，数据资产正在当仁不让地成为现代商业社会的核心竞争力。与其他行业相比，互联网行业已经提早感受到了大数据对商业带来的深切变化。当很多企业还在因为大数据对商业世界的变革无所适从时，一些互联网企业已经完成了核心竞争力的重新定义，正在这些互联网企业身上发生的变化，一定程度上恰恰是其他企业在大数据时代的未来。

“五年前我们就建立了大数据分析平台。在这个平台上，可以将结构化数据和非结构化数据结合在一起，通过分析促进eBay的业务创新和利润增长。”eBay分析平台高级总监Oliver Ratzesberger告诉《商业价值》记者。

现在，eBay的分析平台每天处理的数据量高达100 PB，超过了纳斯达克交易所每天的数据处理量。为了准确分析用户的购物行为，eBay定义了超过500种类型的数据，对顾客的行为进行跟踪分析。

在早期，eBay网页上的每一个功能的更改，通常由对该功能非常了解的产品经理决定，判断的依据主要是产品经理的个人经验。而通过对用户行为数据的分析，网页上任何功能的修改都交由用户去决定。“每当有一个不错的创意或者点子，我们都会在网站上选定一定范围的用户进行测试。通过对这些用户的行为分析，来看这个创意是否带来了预期的效果。”Oliver Ratzesberger说。

更显著的变化反映在广告费上。eBay对互联网广告的投入一直很大，通过购买一些网页搜索的关键字，将潜在客户引入eBay网站。为了对这些关键字广告的投入产出进行衡量，eBay建立了一个完全封闭式的优化系统。通过这个系统，可以精确计算出每一个关键字为eBay带来的投资回报。通过对广告投放的优化，自2007年以来，eBay产品销售的广告费降低了99%，顶级卖家占总销售额的百分比却上升至32%。

另一家电子商务巨头亚马逊也提早进入了大数据时代，亚马逊CTO（首席技术官）Werner Vogels在Cebit上关于大数据的演讲，向与会者描述了亚马逊在大数据时代的商业蓝图。长期以来，亚马逊一直通过大数据分析，尝试定位客户和获取客户反馈。“在此过程中，你会发现数据越大，结果越好。为什么有的企业在商业上不断犯错？那是因为他们没有足够的数据对运营和决策提供支持。”Vogels说，“一旦进入大数据的世界，企业的手中将握有无限可能”。

国金证券在其发布的大数据系列报告中提出了大数据时代应用软件互联网化，行业应用垂直整合和数据成为核心资产等三个主要的趋势，其中最为值得注意的就是在传统操作系统，数据库平台软件同质化趋势日趋明显的背景下，未来越靠近最终用户的企业将在产业链中拥有更大的发言权。而且企业如何通过抓住用户获取源源不断的数据资产将会是一个新的兵家必争之地。

人们对于数据资产的迷恋体现在方方面面。例如，诚实地说，除了目前还不能算是十分完善的广告系统之外，Facebook在商业模式的探索上并不成熟，但这并不妨碍它获得超过1000亿美元的估值。尽管短期来看Facebook的股价会有较大波动，但是更多人还是相信其长期利好，其中一个重要的原因就是Facebook手中掌握着8.5亿用户每天产生的海量数据，这些数据早晚会通过一个恰当的方式释放出商业价值，不断产生的数据本身就是Facebook最重要的资产。

而奥巴马政府对于大数据的看法则从一个侧面凸显了数据在今天的重要程度。

2012年3月22日，奥巴马宣布以2亿美元投资大数据领域，在次日的电话会议上，美国政府将数据定义为“未来的新石油”，美国政府认识到了一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分，未来对数据的占有和控制甚至将成为继陆权、海权、空权之外另一个国家核心资产。国家如此，作为天生需要靠数据驱动财务增长的企业来说更是如此。

商业的发展历史并不是一个存在于人们头脑中虚无缥缈的概念，相反，它是一个不断演变和进化的生态系统。纵观历史上和现在的那些百年企业，他们的共同特点就在于面对持续发生变化的商业环境，他们在成长的过程中比其他企业拥有更为强大的进化能力，能够及时调整自己的战略布局以适应不断变化着的商业生态。

例如，100年前，诺基亚还是一家芬兰的木浆造纸和橡胶生产公司，20世纪60年代开始，它抓住了全球电信行业发展的机遇，从生产电缆到经营电信网络再到制造手机终端，随着商业生态变化的不断进化，在移动互联网到来严重冲击其手机业务的情况下，诺基亚再次开始了其向智能终端的进化和转型。

又如，20世纪60—80年代，IBM还是全球最大的个人电脑公司之一，但是进入新世纪之后个人电脑的利润越来越微薄，IBM开始果断出售自己的PC业务，开始向解决方案提供商转化，作为一家员工过万的超大型企业，IBM涅槃重生的关键就在于其善于审时度势，持续不断地进化能力。

今天的大数据时代，让商业的生态环境在不经意间发生了巨大的变化：网民和消费者的界限正在变得模糊，无处不在的智能终端、随时在线的网络传输、互动频繁的社交网络让以往只是网页浏览者的网民的面孔从模糊变得清晰，对于企业来说，他们第一次有机会进行大规模的精准化的消费者行为研究；作为保持着持续变革欲望的企业，主动地拥抱这种变化，从战略到战术层面开始自我的蜕变和进化将会让他们更加适应这个新的时代。

“大数据”不等于“数据大”

网络业中一个公司是否称得起拥有大数据到少要从三个维度考量：

1数据规模。所谓大数据最基本的要求当然是数据规模大，但很难给出一个绝对的数字标准来确定大小，而只能用一些模糊的感觉来相对比较。例如，一个公司在年度预算中有了专门的、显著的数据存储和分析预算（例如，总预算的3%～5%），有了独立的数据处理和分析部门，有了比较完整的数据存储、安全和保密政策与管理流程，有了高度依赖数据分析结果的商业模式，那么，可以说这个公司面临着利用大数据的机会或挑战了。

2数据结构。数据量只是反映数据性质的一个指标，也许还不是最重要的指标。一天产生一百万个T数据的公司也许算不上大数据公司，而另一个一天只产生一万个T数据的公司也许反而是个大数据公司，其奥妙在于数据结构的复杂性。例如，A公司拥有一亿用户，但用户在A公司网站上只干一件事或一类事，比如获取新闻资讯、买买东西，或者玩玩游戏。那么由此产生的数据量虽然不小，但结构简单、重复性高，分析起来很容易，无非就是根据用户背景和使用习惯分分组、归归类，简单数据挖掘基本功足够，扯什么大数据就有点故弄玄虚了。B公司只有一千万用户，却是个开放平台，用户在此可以做互联网能够支持的所有事情。网络行为又可分为个人、群体、组织等层次，那么这个数据的结构就够复杂，能够支持深度挖掘和复杂建模，因而就可以算作大数据。

3数据关联度。网络业一个常见现象就是随着数据量的增加，用户行为所产生的数据间的关系越来越不清晰，越来越难以捉摸，越来越相互孤立，也就是所谓的数据碎片化。这种碎片化主要来自两个方面：一是网站结构碎片化、逻辑混乱化，各种产品与服务之间相互孤立化，因而导致数据之间关系断裂，关联度很低。例如，明明是同一个用户在一个网站上使用了十种不同的产品和服务，但由于其中五种无须注册使用，其他五种又需要分别注册使用，结果这十种网络行为的数据无法整合在一起，或者需要通过种种技术手段和工具进行高成本的数据整合，以至于入不敷出。这也就减少了数据的含金量，降低了数据的可挖掘度，使得无论数据量如何大、结构如何复杂，也形成不了大数据。反之，如果一个WEB 2.0时代的开放平台，架构清晰，逻辑分明，用户与用户、用户与用户行为、行为与行为之间都具有确定的关联性，那么这样的数据就具有极高的含金量、极高的分析挖掘价值，也就可以形成大数据。

所以，简而言之，大数据与否取决于数据规模、结构复杂性和关联性，简单地说某个公司的数据量大并不等于说这个公司具备拥有和利用大数据的前景。例如，直到Google+诞生前，谷歌仍不能声称自己是个大数据公司，因为它的海量搜索数据虽然规模庞大，但结构简单。尽管听说它的搜索算法已经囊括了六万多个变量，成千上万的数学和统计学模型、上千的博士和工程师参与分析，但在数据挖掘深度、搜索结果个人化、搜索结果与广告之间的相关度上进展有限，只有改良，没有突破。更严重的是，谷歌数百个产品和服务之间相互关联度极低，各干各的，无数数据库互不相干。各个部门之间以邻为壑，互不配合，更不整合。所以，面对以Facebook和苹果为代表的WEB 2.0时代以及由此产生的大数据战略机会，谷歌若干年来束手无策，只能靠不断扩展产品线对付。如果直到2013年谷歌还算不上大数据公司，那些自认为自己有点数据，或者会点加减乘除，或者以为掌握一些基本的数据库技术和Know-How（技术诀窍）就可以招摇过市，到网络业和资本界呼风唤雨，是不是有点不知深浅，过于幼稚了呢？

大数据与传统数据的区别

在过去的几十年里，我们的生活和工作已经发生了翻天覆地的变化，这一切的背后推手正是计算机和互联网，在未来，智能化还将为我们带来无限的便捷。

在网络应用中，我们每个人都在源源不断地产生数据，无论是你在好友的微博上点赞，还是进入网上书城购买图书，服务器都会自动记录下你的数据，并且对数据进行分析整合，提炼出有价值的那一部分，进而了解你个人的偏好和消费习惯。

对这些海量的数据再进行有组织的分析、运用，并以世界的商业公用服务、产品信息做基底，从而精准快速地提供全方位帮助信息，一个大数据时代就此而生了。

那么，大数据跟传统的数据又有着怎样的本质差别呢？

首先，大数据是永远在线的，不在线的数据就不能称之为“大数据”。目前，业界对大数据的概念还没有一个统一的界定，一般是指“无法用现有的软件工具提取、储存、搜索、共享、分析和处理的、海量的、复杂的数据集合”。因而大数据必须是随时随地能调用，并且马上被计算的，而不是储存在磁带、U盘等软件工具中的数据。

其次，大数据必须反应迅速及时。我们上天猫搜索一个商品，后台便会自动在数十亿商品中进行筛选，将符合你的要求的产品瞬间呈现。如果要等上一个小时才会出现搜索结果，相信没有用户愿意再上天猫购物。数十亿商品、几百万个卖家、一亿的消费者，瞬间完成匹配呈现，这才能称之为“大数据”。

最后，大数据还有一个特征，就是数据的全面性。大数据不是样本思维，它是一个完整的全面的系统。在现在的互联网时代，我们要的是尽可能全面的数据，而不是数据的某一个样本或抽样。因而也有人将大数据称为全数据。

与传统数据相比，大数据的价值和优势更加凸显，这也是大数据广泛应用的根本原因所在。如今，大数据对我们的生活正在产生广泛影响，但是传统数据并没有退出历史舞台，在某些特殊的领域，传统数据发挥的作用还是无可替代的。

结构化、非结构化和半结构化的数据

在做一个信息系统设计时肯定会涉及数据的存储，一般我们都会将系统信息保存在某个指定的关系数据库中。我们会将数据按业务分类，并设计相应的表，然后将对应的信息保存到相应的表中。比如我们做一个业务系统，要保存员工基本信息：工号、姓名、性别、出生日期等，我们就会建立一个对应的staff表。

但不是系统中所有信息都可以这样简单地用一个表中的字段就能对应的，它们可以分为三类。

1.结构化数据

就像上面举的例子，这种类别的数据最好处理，只要简单地建立一个对应的表就可以了。

2.非结构化数据

像图片、声音、视频等，这类信息我们通常无法直接知道它的内容，数据库也只能将它保存在一个BLOB字段中，以后检索非常麻烦。一般的做法是，建立一个包含三个字段的表[编号number、内容描述varchar（1024）、内容blob]。引用通过编号检索，通过内容描述。现在还有很多非结构化数据的处理工具，市面上常见的内容管理器就是其中的一种。

3.半结构化数据

这样的数据和上面两种类别都不一样，它是结构化的数据，但是结构变化很大。因为我们要了解数据的细节，所以不能将数据简单地组织成一个文件按照非结构化数据处理。由于结构变化很大，也不能够简单地建立一个表和它对应。

先举一个半结构化的数据的例子，比如存储员工的简历。有的员工的简历很简单，比如只包括教育情况；有的员工的简历却很复杂，比如包括工作情况、婚姻情况、出入境情况、户口迁移情况、党籍情况、技术技能等。还有可能有一些我们没有预料的信息。通常我们要完整地保存这些信息并不是很容易的，因为我们不会希望系统中的表的结构在系统的运行期间进行变更。

第2章 大数据到底是什么

第2章大数据到底是什么