登陆注册
8929800000012

第12章 数据存储与数据挖掘(4)

1.多媒体数据库

音频、图像、视频等多媒体数据已逐渐成为信息领域的重要表现形式。音频、视频的数据量很大,要从多媒体数据中找出所需要的数据和信息有一定的困难。目前,对多媒体数据的处理往往局限于存取、编辑、集成、快进快退等基本操作上,对多媒体信息的检索一般依据文件标识、关键字等进行,局限性很大。基于内容的多媒体检索,通过实例的查询方式,检索相似图像、音频、视频信息,已成为研究的热点,基于内容的音频、视频信息的聚类、分类、相似性查询等数据挖掘技术正在兴起。

2.空间数据库

空间数据库存储了大量与空间有关的数据,例如地图,预处理后的遥感或医学图像数据,以及VLSI芯片设计数据等:空间数据库有许多与关系数据库不同的特征。空间数据库包含了拓扑或距离信息,通常按复杂的、多维的空间索引结构组织数据,其访问是通过空间数据的访问方法,常用空间推理、地理计算和空间知识表示技术。空间数据挖掘是指在空间数据库中非显式存在的知识、空间关系或其他意义的模式等的提取,它需要综合数据挖掘和空间数据库技术。目前在GIS中得到广泛的应用,空间数据挖掘的方法主要有归纳方法、聚集方法、统计信息网格算法(STING)以及空间聚集和特征邻近关系采掘等。

3.文本数据库

一般认为,数据挖掘的大部分研究主要针对结构化的数据,如关系的、事务的数据川。然而在现实世界中,可获取的大邻分信息存储在文本数据库中,由新闻、论文、书籍、数字图书馆、电子邮件消息等各种数据源的大量文档组成。文本数据库中存储的数据一般是半结构化的数据,也可能包含大量的非结构化的成分。传统的信息检索技术已不适应日益增加的大量文本数据处理的需要,而用户需要知道不同文档的比较,以及文档的重要性和相关性排列,或需要找出多文档的模式或趋势。文本挖掘不仅仅是把统计模型应用到数据文件上,而且是揭示文本集合之间的联系。特别地,联机文本挖掘指把网上的文本数据仔细搜寻一遍并从中获得一些信息,目前是通过互联网的搜索和文本分析方法实现。

4.Web数据库

Web数据库是Web和数据库技术的有机结合,是一个庞大而复杂的数据库,其存储数据的最大特点就是半结构化。Web上的每一个站点就是一个数据源,每一站点的信息和组织都不一样,形成了一个巨大的异构数据库环境。Web数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询与集成问题,这就必须要有一个模型来清晰地描述Web上的数据。针对Web上的数据半结构化的特点,寻找一个半结构化的数据模型是解决问题的关键所在,另外,还需要一种半结构化模型抽取技术,即自动地从现有数据中抽取半结构化模型的技术。XML可看作一种半结构化的数据模型描述语言,将XML的文档描述与关系数据库中的属性一一对应起来,实施精确地查询与模型抽取。显然,面向Web的数据挖掘比一般的数据挖掘要复杂得多。

3.4.4数据挖掘的方法

1.神经网络方法

神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。典型的神经网络模型主要分3大类:以感知机、bp反向传播模型、函数型网络为代表的,用于分类、预测和模式识别的前馈式神经网络模型;以hopfield的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以art模型、koholon模型为代表的,用于聚类的自组织映射方法。神经网络方法的缺点是“黑箱”性,人们难以理解网络的学习和决策过程。

2.遗传算法

遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其他模型结合等性质使得它在数据挖掘中被加以应用。

sunil已成功地开发了一个基于遗传算法的数据挖掘工具,利用该工具对两个飞机失事的真实数据库进行了数据挖掘实验,结果表明遗传算法是进行数据挖掘的有效方法之一。遗传算法的应用还体现在与神经网络、粗集等技术的结合上。如利用遗传算法优化神经网络结构,在不增加错误率的前提下,删除多余的连接和隐层单元;用遗传算法和bp算法结合训练神经网络,然后从网络提取规则等。但遗传算法的算法较复杂,收敛于局部极小的较早收敛问题尚未解决。

3.决策树方法

决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。最有影响和最早的决策树方法是由quinlan提出的著名的基于信息熵的id3算法。它的主要问题是:id3是非递增学习算法;id3决策树是单变量决策树,复杂概念的表达困难;同性间的相互关系强调不够;抗噪性差。针对上述问题,出现了许多较好的改进算法,如schlimmer和fisher设计了id4递增式学习算法;钟鸣,陈文伟等提出了ible算法等。

4.粗集方法

粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点:不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。粗集处理的对象是类似二维关系表的信息表。目前成熟的关系数据库管理系统和新发展起来的数据仓库管理系统,为粗集的数据挖掘奠定了坚实的基础。但粗集的数学基础是集合论,难以直接处理连续的属性。而现实信息表中连续属性是普遍存在的。因此连续属性的离散化是制约粗集理论实用化的难点。现在国际上已经研制出来了一些基于粗集的工具应用软件,如加拿大regina大学开发的kddr;美国kansas大学开发的lers等。

5.覆盖正例排斥反例方法

它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则保留。按此思想循环所有正例种子,将得到正例的规则(选择子的合取式)。比较典型的算法有michal-ski的aq11方法、洪家荣改进的aq15方法以及他的ae5方法。

同类推荐
  • 幸福城市才是最好的城市

    幸福城市才是最好的城市

    本书围绕什么样的城市才称得上幸福城市、如何建设幸福城市两大主题,作者对幸福城市建设总结为“一二三四五”理论:一个中心(以市民幸福为中心)、两个法则(既要爱情法则,更要亲情法则)、三个层次(幸福城市的高度)、四大支柱(幸福城市的保障)、五大标准(幸福城市的维度)。列举了迪拜、奥胡斯、杭州、成都等7个世界上著名的幸福指数高的城市作为经典案例,揭示幸福城市并不神秘,幸福密码可以相互学习、借鉴,为当下席卷神州大地的幸福城市建设浪潮提供启迪与参考。
  • 万科真相

    万科真相

    “空手套白狼”,一个原本下海的“小官员”,如何能在20年间打造出中国最大房企帝国…… “做空卖空”,一个本是作坊式的贸易公司,如何能在30年间成长为全球最大住宅企业…… “资本滚雪球”,一个曾经在菜市场兜售股票的企业,如何能在18年间滚出超过美国前四大房产公司之和的市值……
  • 看清经济新常态

    看清经济新常态

    聚焦两会,看清经济新常态。中国经济是否会进入一个持续衰退期?全面深化改革路在何方?
  • 论金融机构激励约束机制

    论金融机构激励约束机制

    本书共十二章,分别对金融机构激励约束机制的理论和实际问题进行了较为系统深入地探讨。
  • 中国工业发展报告(2007):工业发展效益现状与分析

    中国工业发展报告(2007):工业发展效益现状与分析

    转变经济发展方式有许多工作要做,应突出重点,在以下重要途径和关键环节上取得进展和突破:第一:要正确处理速度与效益的关系,从单纯追求经济增长速度转向又好又快的发展。第二:调整和优化产业结构是提高工业经济效益的重要途径。第三:经济发展中的区域布局合理化是转变经济发展方式、提高资源配置效率的重要途径.第四:增强企业创新能力是转变经济发展方式的关键环节。第五:在继续推进生产经营领域市场化改革的同时,必须推进生产社会化的改革和调整。
热门推荐
  • 大宋剑狂

    大宋剑狂

    人世纷争人世恨,江湖风雨何日休?没有江湖时,人也会跟自己过不去。有言道:“有人的地方,就有江湖。”岂不知,上下几千年,人心本就是江湖。或者说:人就是江湖。
  • 隐婚百分百,总裁老公求克制

    隐婚百分百,总裁老公求克制

    “先生,这是空运给林小姐的玫瑰花!”“先生,有人来给林小姐提亲了!”“先生,林小姐在街上被人表白了!”……沈九君以为林笑笑被自己甩了后必定是凄惨度日,可现实和想象反差有点大,沈九君心里不平衡了,拦住盛装打扮的林笑笑,“你干嘛去?”“相亲!”这是一个渣男被前女友调教成温顺忠犬的故事。
  • 浮生一梦春芜长

    浮生一梦春芜长

    夕和想,她是快死了。恍惚间,她似乎看到了自己的一生。前半生,殷府最为卑微的六小姐,粗茶淡饭,粗布麻衣,还有无休无尽的奚落和侮辱;后半生,入宫多年不曾见过皇帝一面的和贵人,流光殿如同冷宫锁住了她渐渐老去的面容和日日凄凉的时光。夕和觉得好不甘,为什么她的一生尽由他人摆布,落至如此无尽凄凉?若是重来,她再不愿重蹈覆辙,若是重来,她再不愿任人践踏,若是重来,她只愿逃得殷家,逃得这似海宫门……可若真是重来,是否真的会有所改变呢?
  • 绝世王妃:废柴宠妃很倾城

    绝世王妃:废柴宠妃很倾城

    俗话说得好,一朝被蛇咬,十年怕井绳,夏云染就是一个经典了。前世惨被小三害死,幸好老天怜悯,给了她一具异世的身体,“哼哼!我一出手,必定要搅得你们不得安宁!”第一废柴什么时候到本小姐身上了,前世我可是天才!家族预言师预言注定短命,“既然你们都预言我活不过十五岁,但是我偏偏活过了,那么十五岁后的我就是重生,若谁敢再惹我,休怪我无情!”
  • 傲娇妹控exo

    傲娇妹控exo

    看傲娇女主如何开启高能逗比模式,依靠一副红楼的身子,水浒的心,在这纷乱的三国时代中,任性西游~~
  • 寻生往死

    寻生往死

    寻生往死,要想寻得长生,就要在死地里寻找
  • 柯南之陪你

    柯南之陪你

    小兰让我们一起等待他们的到来吧,你的新一,我的……PS:作者很笨,请轻松吐槽
  • 最黑暗

    最黑暗

    黎明之前的黑夜为最黑暗,曙光前夕的生存为最绝望。在这绝望的时刻,满世界丧尸、变异生物,秦海唯一的愿望,只有活着。
  • 公子良书

    公子良书

    她是将军府的二小姐——良书,年纪轻轻便已征战四方,杀敌无数,被世人尊称为护国公子。独拿一支长笛,杨柳萋萋,似乎一切的东西都已经得到,牵挂的人和物,弥留于心里的空白又该怎么去补?
  • 书生初见

    书生初见

    本书为公版书,为不受著作权法限制的作家、艺术家及其它人士发布的作品,供广大读者阅读交流。