书城经济智慧城市技术推动和谐
3148900000013

第13章 数据存储与数据挖掘(5)

6.统计分析方法

在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用统计学方法,即利用统计学原理对数据库中的信息进行分析。可进行常用统计(求大量数据中的最大值、最小值、总和、平均值等)、回归分析(用回归方程来表示变量间的数量关系)、相关分析(用相关系数来度量变量间的相关程度)、差异分析(从样本统计量的值得出差异来确定总体参数之间是否存在差异)等。

7.模糊集方法

即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。系统的复杂性越高,模糊性越强,一般模糊集合理论是用隶属度来刻画模糊事物的亦此亦彼性的。李德毅等人在传统模糊理论和概率统计的基础上,提出了定性定量不确定性转换模型———云模型,并形成了云理论。

3.4.5数据挖掘中的关键技术

数据挖掘在技术上可以根据它的工作过程分为:数据的抽取、数据的存储和管理、数据的展现等关键技术。

1.数据的抽取

数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面的处理。在数据抽取方面,未来的技术发展将集中在系统功能集成化方面,以适应数据仓库本身或数据源的变化,使系统更便于管理和维护。

2.数据的存储和管理

数据仓库的组织管理方式决定了它有别于传统数据库的特性,也决定了其对外部数据的表现形式。数据仓库管理所涉及的数据量比传统事务处理大得多,且随时间的推移而快速累积。在数据仓库的数据存储和管理中需要解决的是如何管理大量的数据、如何并行处理大量的数据、如何优化查询等。目前,许多数据库厂家提供的技术解决方案是扩展关系型数据库的功能,将普通关系数据库改造成适合担当数据仓库的服务器。

3.数据的展现

在数据展现方面主要的方式有查询、报表、可视化、统计输出、挖掘结果等。查询:实现预定义查询、动态查询、OLAP查询与决策支持智能查询;报表:产生关系数据表格、复杂表格、OLAP表格、报告以及各种综合报表;可视化:用易于理解的点线图、直方图、饼图、网状图、交互式可视化、动态模拟、计算机动画技术表现复杂数据及其相互关系;统计输出:进行平均值、最大值、最小值、期望、方差、汇总、排序等各种统计分析;挖掘结果:利用数据挖掘等方法,从数据中得到关于数据关系和模式的知识。

3.5数据挖掘与智慧城市

3.5.1智慧城市建设中数据挖掘的任务

数据挖掘技术的应用将会渗透到智慧城市的建设的多个方面和领域,为智慧政府、智慧交通、智慧教育、智慧社区等的发展提供重要的技术支持。在智慧城市的建设中,数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。

1.关联分析(Association Analysis)

关联规则挖掘是由Rakesh Apwal等人首先提出的。两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。

2.聚类分析(Clustering)

聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。

3.分类(Classification)

分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。

4.预测(Predication)

预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。

5.时序模式(Time‐series Pattern)

时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用已知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。

6.偏差分析(Deviation)

在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。

3.5.2数据挖掘在智慧城市的应用

数据挖掘应用范围比较广泛,在智慧城市建设中,将主要应用于金融、电信、证券、商业、市场营销、政府等部门。目前,CRM(客户关系管理)利用了可视化数据挖掘技术,已有许多很成功范例。数据挖掘成功的两个关键因素是:一个大且完整的数据仓库和一个可挖掘的定义、理解都明确的商务流程,如客户展望、保持,商业活动管理,等等。一些成功的应用案例包括:

1.制药公司

一家制药公司可以分析他最近的销售行动及其结果以改进高位值医师的目标市场,并决定哪些市场活动将在后续的几个月有最大的效果;数据需要包括竞争对手的市场活动,信息和当地医疗系统的信息一样;结果可以通过广域网分发到各销售队伍,它可以使地区代表从决策过程中关键属性的视点来检视这些建议;随着这一过程的进行,数据仓库的动态分析允许来自整个组织的最好的实践应用于特定的销售环境。

2.信用卡公司

一个信用卡公司可利用他的巨大的客户交易数据仓库来确定客户对新的信用卡中最感兴趣的产品;使用一个小型的测试邮件,就可以确定一个客户对新产品的亲和力属性。最近的研究已经表明,采用超常规的方法对指定目标的邮寄活动,可以节省20倍的费用。

3.运输公司

一家拥有很大的直销队伍的多样化的运输公司,可使用数据挖掘以确定其服务的最好模式,用数据挖掘来分析他自己的客户体验,还可以建立唯一的分段以确定高位值的预期。对诸如由Dun&Bradstreet提供的那些一般商务数据使用这些分段可以产生一张按地区排列的优先列表。

4.货物包裹公司

一个大的消费者货物包裹公司可以利用数据挖掘来改进对零售商的销售流程。来自消费者组织、运输商以及竞争对手活动的数据,可以用于理解打上印记和仓储转移的原因。通过这些分析,制造商可选择能最好地运抵目标客户地区的运输商推荐策略。每一个这样的例子有一个共同的清晰的基础,他们利用在数据仓库里隐藏的关于客户笃信的知识,来减少费用并改善客户关系的价值。这些组织现在可以集中精力于最重要的客户和有前景的商务,并设计可以最好实现这些目标的市场策略。