登陆注册
8929800000013

第13章 数据存储与数据挖掘(5)

6.统计分析方法

在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用统计学方法,即利用统计学原理对数据库中的信息进行分析。可进行常用统计(求大量数据中的最大值、最小值、总和、平均值等)、回归分析(用回归方程来表示变量间的数量关系)、相关分析(用相关系数来度量变量间的相关程度)、差异分析(从样本统计量的值得出差异来确定总体参数之间是否存在差异)等。

7.模糊集方法

即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。系统的复杂性越高,模糊性越强,一般模糊集合理论是用隶属度来刻画模糊事物的亦此亦彼性的。李德毅等人在传统模糊理论和概率统计的基础上,提出了定性定量不确定性转换模型———云模型,并形成了云理论。

3.4.5数据挖掘中的关键技术

数据挖掘在技术上可以根据它的工作过程分为:数据的抽取、数据的存储和管理、数据的展现等关键技术。

1.数据的抽取

数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面的处理。在数据抽取方面,未来的技术发展将集中在系统功能集成化方面,以适应数据仓库本身或数据源的变化,使系统更便于管理和维护。

2.数据的存储和管理

数据仓库的组织管理方式决定了它有别于传统数据库的特性,也决定了其对外部数据的表现形式。数据仓库管理所涉及的数据量比传统事务处理大得多,且随时间的推移而快速累积。在数据仓库的数据存储和管理中需要解决的是如何管理大量的数据、如何并行处理大量的数据、如何优化查询等。目前,许多数据库厂家提供的技术解决方案是扩展关系型数据库的功能,将普通关系数据库改造成适合担当数据仓库的服务器。

3.数据的展现

在数据展现方面主要的方式有查询、报表、可视化、统计输出、挖掘结果等。查询:实现预定义查询、动态查询、OLAP查询与决策支持智能查询;报表:产生关系数据表格、复杂表格、OLAP表格、报告以及各种综合报表;可视化:用易于理解的点线图、直方图、饼图、网状图、交互式可视化、动态模拟、计算机动画技术表现复杂数据及其相互关系;统计输出:进行平均值、最大值、最小值、期望、方差、汇总、排序等各种统计分析;挖掘结果:利用数据挖掘等方法,从数据中得到关于数据关系和模式的知识。

3.5数据挖掘与智慧城市

3.5.1智慧城市建设中数据挖掘的任务

数据挖掘技术的应用将会渗透到智慧城市的建设的多个方面和领域,为智慧政府、智慧交通、智慧教育、智慧社区等的发展提供重要的技术支持。在智慧城市的建设中,数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。

1.关联分析(Association Analysis)

关联规则挖掘是由Rakesh Apwal等人首先提出的。两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。

2.聚类分析(Clustering)

聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。

3.分类(Classification)

分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。

4.预测(Predication)

预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。

5.时序模式(Time‐series Pattern)

时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用已知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。

6.偏差分析(Deviation)

在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。

3.5.2数据挖掘在智慧城市的应用

数据挖掘应用范围比较广泛,在智慧城市建设中,将主要应用于金融、电信、证券、商业、市场营销、政府等部门。目前,CRM(客户关系管理)利用了可视化数据挖掘技术,已有许多很成功范例。数据挖掘成功的两个关键因素是:一个大且完整的数据仓库和一个可挖掘的定义、理解都明确的商务流程,如客户展望、保持,商业活动管理,等等。一些成功的应用案例包括:

1.制药公司

一家制药公司可以分析他最近的销售行动及其结果以改进高位值医师的目标市场,并决定哪些市场活动将在后续的几个月有最大的效果;数据需要包括竞争对手的市场活动,信息和当地医疗系统的信息一样;结果可以通过广域网分发到各销售队伍,它可以使地区代表从决策过程中关键属性的视点来检视这些建议;随着这一过程的进行,数据仓库的动态分析允许来自整个组织的最好的实践应用于特定的销售环境。

2.信用卡公司

一个信用卡公司可利用他的巨大的客户交易数据仓库来确定客户对新的信用卡中最感兴趣的产品;使用一个小型的测试邮件,就可以确定一个客户对新产品的亲和力属性。最近的研究已经表明,采用超常规的方法对指定目标的邮寄活动,可以节省20倍的费用。

3.运输公司

一家拥有很大的直销队伍的多样化的运输公司,可使用数据挖掘以确定其服务的最好模式,用数据挖掘来分析他自己的客户体验,还可以建立唯一的分段以确定高位值的预期。对诸如由Dun&;Bradstreet提供的那些一般商务数据使用这些分段可以产生一张按地区排列的优先列表。

4.货物包裹公司

一个大的消费者货物包裹公司可以利用数据挖掘来改进对零售商的销售流程。来自消费者组织、运输商以及竞争对手活动的数据,可以用于理解打上印记和仓储转移的原因。通过这些分析,制造商可选择能最好地运抵目标客户地区的运输商推荐策略。每一个这样的例子有一个共同的清晰的基础,他们利用在数据仓库里隐藏的关于客户笃信的知识,来减少费用并改善客户关系的价值。这些组织现在可以集中精力于最重要的客户和有前景的商务,并设计可以最好实现这些目标的市场策略。

同类推荐
  • 货币战争3:金融高边疆

    货币战争3:金融高边疆

    中国近百年的历史,从金融的视角看就是,谁能控制金融高边疆,谁就拥有了巨大的战略优势。而金融高边疆的崩溃最终必将导致政权的崩溃。国家的边疆,不仅是由陆疆、海疆、空疆(包括太空)构成的三维物理空间,未来还需要包括第四维:金融高边疆。英国金融资本的突击力量远比船坚炮利的帝国海军更具威力,他们首先打垮了中国的白银货币本位,抢占了中央银行这一金融战略制高点,渗透和蚕食了金融网络,掌握了清算体系,控制了金融市场,进而剥夺了清帝国的财政税收大权。在失去了对金融高边疆控制权的情况下,任何政治改革、军事自强、工业兴国的美好意图都只能是无法实现的梦想!尊敬的书友,本书选载最精华部分供您阅读。留足悬念,同样精彩!
  • 马上就上手的96个赚钱小生意

    马上就上手的96个赚钱小生意

    本书从上班族们的实际情况出发,挑选了96个易做易学的赚钱小生意,告诉上班族们如何利用业余时间来创业致富,为自己增添额外的收入来源,让自己的生活越过越好。
  • 旅游经济学

    旅游经济学

    旅游经济学是研究旅游活动及其发展规律的一门新兴的综合性经济科学。 研究旅游经济活动过程中的各种经济关系和旅游业发展规律的学科。它和农业经济学、工业经济学、商业经济学、物资经济学一样,是研究国民经济中某一部门的经济学科。旅游经济学区别于旅游饭店管理学、旅游市场学、旅行社管理、旅游地理学等学科。这些学科是以旅游业中某一具体业务做为研究对象,而旅游经济学是从整个旅游经济活动全过程进行研究的。有诸多该学科教材及论著。
  • 市场、核心能力与企业持续发展

    市场、核心能力与企业持续发展

    本书试图在产业组织理论与企业核心能力理论的基础上,构建融通经济学与管理学与企业持续发展的一个新的分析框架。提出并论述了企业持续发展是在异质性的基点上市场与核心能力匹配互动的结果的观点。
  • 我的财务我监管

    我的财务我监管

    滴水不漏的财务管理是企业正常运转和发展壮大的基础,企业的一切管理工作应当从建立和健全财务管理制度开始。管理者必须通晓财务,并成为企业财务管理和内部控制的核心人物,从而确保企业资产的安全性并对企业经营状况了如指掌。
热门推荐
  • 东方玉佳人

    东方玉佳人

    他叫小拾儿,十三岁时失去义父之后便被师傅带到了蜀山,与此同时,他有了一个新的名字,东方景煜,师傅告诉他这名字是为了纪念义父的,可后来他才渐渐明白这名字真正的含义。他本是一个普通人,可他却又不是一个普通人,他是他,可他却又不是他,当一切真相揭开的时候,他又将怎样去面对自己,去面对所有爱他以及他爱的人。权利、道义、爱情,当这三样东西同时摆在他面前的时候,他又该如何选择,一边是天下苍生,一边是至高无上的权利,一边是至死不渝的爱情,当这些东西都摆在他面前,而他又只能选择一样的时候,他又该如何抉择……
  • 七号高速

    七号高速

    灵柩之中的逝者,伴随着触媒重返世间,纠缠不肯离去。每一位被困扰之人的秘密都将被重提。无尽恐怖的夜,极恶之地当中暗藏玄机。七号高速公路旁的一家小吃店,拉开了整件事情的帷幕。
  • 世界华文微型小说百家论

    世界华文微型小说百家论

    本中介绍了那么多国内外华文微型小说作家和评论家,把他们的贡献展示出来,对学院派研究者系统性研究微型小说创作具有参考价值。本书将中国微型小说创作纳入世界华文创作的范畴,并进一步融合于世界微型小说创作中,一方面是创作视角融合的问题,另一方面是与世界微型小说创作文化潮流融合的问题,还有微型小说研究的方式与手段融合的问题。本书把我们的微型小说创作和研究成就介绍到“外边”去,让更多人通过微型小说这个平台更好地认识中国,更好地理解我们的传统文化,这样的工作意义重大。
  • 旋风少女之百草廷皓

    旋风少女之百草廷皓

    百草找到身世,变身小公主,找到真爱,然后孩子就出来了(?▽`??)
  • 词林正韵

    词林正韵

    本书为公版书,为不受著作权法限制的作家、艺术家及其它人士发布的作品,供广大读者阅读交流。
  • 天命弑魂

    天命弑魂

    一个受了千年的诅咒,一个肩负着历代传承的责任。天命让他们由亲密无间的朋友沦为永远的敌人。一段非凡的经历,一场凡人修仙封神的故事,一个热血沸腾的江湖!
  • 平龙认

    平龙认

    元末明初,群雄并起,金戈铁马,仗剑天涯。这是火器一统天下的前夕,也是武侠重新辉煌的开始!
  • 耽美生子:毒舌家有美人鱼

    耽美生子:毒舌家有美人鱼

    男人惨遭糟蹋,生下一子。他开了家花店,辛辛苦苦把儿子拉扯大。某一天,儿子捡了一个男人回家。做饭给他吃什么的,他是不情愿的,跟他睡一间房,他也是不情愿的,心里却悄悄留意起来了。后来他发现儿子捡回来的男人……居然是一条人鱼??!
  • 极意空间

    极意空间

    有无尽财富的小乐,转生于异世。为了能回到原来的世界,不得不想尽一切办法。由于可以用到的方法都无法让他回去,只好暂时接受了这个全新的世界,并努力成为这个世界的最强者,在这成长的过程中,再顺便帮助这落寞的家族重归辉煌……
  • 本是仙

    本是仙

    一场意外,让他穿越时空,穿越位面多少离人唏嘘,灯辉摇曳饥寒交迫,人间冷暖这处陌生的大陆,没有修真,没有......仙!