登陆注册
8929800000012

第12章 数据存储与数据挖掘(4)

1.多媒体数据库

音频、图像、视频等多媒体数据已逐渐成为信息领域的重要表现形式。音频、视频的数据量很大,要从多媒体数据中找出所需要的数据和信息有一定的困难。目前,对多媒体数据的处理往往局限于存取、编辑、集成、快进快退等基本操作上,对多媒体信息的检索一般依据文件标识、关键字等进行,局限性很大。基于内容的多媒体检索,通过实例的查询方式,检索相似图像、音频、视频信息,已成为研究的热点,基于内容的音频、视频信息的聚类、分类、相似性查询等数据挖掘技术正在兴起。

2.空间数据库

空间数据库存储了大量与空间有关的数据,例如地图,预处理后的遥感或医学图像数据,以及VLSI芯片设计数据等:空间数据库有许多与关系数据库不同的特征。空间数据库包含了拓扑或距离信息,通常按复杂的、多维的空间索引结构组织数据,其访问是通过空间数据的访问方法,常用空间推理、地理计算和空间知识表示技术。空间数据挖掘是指在空间数据库中非显式存在的知识、空间关系或其他意义的模式等的提取,它需要综合数据挖掘和空间数据库技术。目前在GIS中得到广泛的应用,空间数据挖掘的方法主要有归纳方法、聚集方法、统计信息网格算法(STING)以及空间聚集和特征邻近关系采掘等。

3.文本数据库

一般认为,数据挖掘的大部分研究主要针对结构化的数据,如关系的、事务的数据川。然而在现实世界中,可获取的大邻分信息存储在文本数据库中,由新闻、论文、书籍、数字图书馆、电子邮件消息等各种数据源的大量文档组成。文本数据库中存储的数据一般是半结构化的数据,也可能包含大量的非结构化的成分。传统的信息检索技术已不适应日益增加的大量文本数据处理的需要,而用户需要知道不同文档的比较,以及文档的重要性和相关性排列,或需要找出多文档的模式或趋势。文本挖掘不仅仅是把统计模型应用到数据文件上,而且是揭示文本集合之间的联系。特别地,联机文本挖掘指把网上的文本数据仔细搜寻一遍并从中获得一些信息,目前是通过互联网的搜索和文本分析方法实现。

4.Web数据库

Web数据库是Web和数据库技术的有机结合,是一个庞大而复杂的数据库,其存储数据的最大特点就是半结构化。Web上的每一个站点就是一个数据源,每一站点的信息和组织都不一样,形成了一个巨大的异构数据库环境。Web数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询与集成问题,这就必须要有一个模型来清晰地描述Web上的数据。针对Web上的数据半结构化的特点,寻找一个半结构化的数据模型是解决问题的关键所在,另外,还需要一种半结构化模型抽取技术,即自动地从现有数据中抽取半结构化模型的技术。XML可看作一种半结构化的数据模型描述语言,将XML的文档描述与关系数据库中的属性一一对应起来,实施精确地查询与模型抽取。显然,面向Web的数据挖掘比一般的数据挖掘要复杂得多。

3.4.4数据挖掘的方法

1.神经网络方法

神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。典型的神经网络模型主要分3大类:以感知机、bp反向传播模型、函数型网络为代表的,用于分类、预测和模式识别的前馈式神经网络模型;以hopfield的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以art模型、koholon模型为代表的,用于聚类的自组织映射方法。神经网络方法的缺点是“黑箱”性,人们难以理解网络的学习和决策过程。

2.遗传算法

遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其他模型结合等性质使得它在数据挖掘中被加以应用。

sunil已成功地开发了一个基于遗传算法的数据挖掘工具,利用该工具对两个飞机失事的真实数据库进行了数据挖掘实验,结果表明遗传算法是进行数据挖掘的有效方法之一。遗传算法的应用还体现在与神经网络、粗集等技术的结合上。如利用遗传算法优化神经网络结构,在不增加错误率的前提下,删除多余的连接和隐层单元;用遗传算法和bp算法结合训练神经网络,然后从网络提取规则等。但遗传算法的算法较复杂,收敛于局部极小的较早收敛问题尚未解决。

3.决策树方法

决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。最有影响和最早的决策树方法是由quinlan提出的著名的基于信息熵的id3算法。它的主要问题是:id3是非递增学习算法;id3决策树是单变量决策树,复杂概念的表达困难;同性间的相互关系强调不够;抗噪性差。针对上述问题,出现了许多较好的改进算法,如schlimmer和fisher设计了id4递增式学习算法;钟鸣,陈文伟等提出了ible算法等。

4.粗集方法

粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点:不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。粗集处理的对象是类似二维关系表的信息表。目前成熟的关系数据库管理系统和新发展起来的数据仓库管理系统,为粗集的数据挖掘奠定了坚实的基础。但粗集的数学基础是集合论,难以直接处理连续的属性。而现实信息表中连续属性是普遍存在的。因此连续属性的离散化是制约粗集理论实用化的难点。现在国际上已经研制出来了一些基于粗集的工具应用软件,如加拿大regina大学开发的kddr;美国kansas大学开发的lers等。

5.覆盖正例排斥反例方法

它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则保留。按此思想循环所有正例种子,将得到正例的规则(选择子的合取式)。比较典型的算法有michal-ski的aq11方法、洪家荣改进的aq15方法以及他的ae5方法。

同类推荐
  • 从零开始读懂经济学

    从零开始读懂经济学

    本书是一本通俗的大众经济学读物。它从最基础的概念开始,将经济理论和经济现象相结合,用通俗易懂的语言深入浅出地对经济学做了细致全面的解析。引导每一位读者入门,从此让你面对经济学不再望而生畏。本书包含经济学基础原理、经济学常用术语、市场经济学、市场结构经济学、消费经济学、生产要素经济学、厂商经济学、宏观经济学、国际贸易经济学、金融经济、经济形势11篇内容,包罗万象,是经济学爱好者的首选读本。
  • 走出山坳的中国

    走出山坳的中国

    近年来,中国已被公认为世界经济增长的火车头之一,甚至在一些过去场合下国际上流行的“美国打一个喷嚏,世界要感冒”的话语,其主语也被悄然改成了“中国”!“到中国去投资!”,已成为时下国际网络中点击率最高的用词
  • 最神奇的经济学定律

    最神奇的经济学定律

    无论你是什么样的人,从事着怎样的职业,生活在怎样的人生状态里,总会遇到各种各样的问题,当然,也总有针对各种问题总结出的原理或定律。本书介绍了80个神奇的定律,从生活化的场景出发,从经济学家的视角分类解读,力图为读者呈现浅显易懂的经济学定律。
  • 我国财产继承制度立法研究

    我国财产继承制度立法研究

    本书分为上、下两篇,上篇为我国继承法律制度概述,主要阐述现行继承法的基本理论,包括财产继承权概述、我国继承制度的本质和基本原则、法定继承、遗嘱继承与遗赠、遗赠扶养协议和遗产的处理等内容。下篇为我国继承法律制度的立法构建,旨在借鉴国外和港澳台地区立法经验的基础上,针对我国继承法目前存在的主要问题与不足,提出完善我国继承法律制度的若干立法建议,内容涉及法定继承、遗嘱继承、遗赠、遗赠扶养协议、继承扶养协议、继承权与遗嘱权的行使、遗产的处理等方面。
  • 劳动合同法操作实务与案例释解

    劳动合同法操作实务与案例释解

    《中华人民共和国劳动合同法》经过数年的起草和全国人大常委会的四次审议,于2007年6月29日由第十届全国人大常委会第二十八次会议通过,并将于2008年1月1日开始实施。《劳动合同法》的颁布和实施是我国劳动法制建设的一件大事,弥补了劳动法制的空白,进一步健全了劳动合同法律制度,加强了对劳动者合法权益的保护,为劳动者维权提供了利剑,为构建和谐劳动关系提供了有力的法律保障。
热门推荐
  • 时间海,淋墨成微

    时间海,淋墨成微

    她,离开了三年,只为忘记他;他,执着了三年,只为等到她;他,苦心设技,只为报复他同父异母的哥哥;她,一心为梦想,却无料掺和到一场事事纠纷…
  • 王月如

    王月如

    她不是追星族,可她却爱上了一个大明星,她为了能和他近距离接触无论多么辛苦她认为都是值得的。可就差一步她的父母却因一场意外双双离她而去,为了完成父亲的遗愿她不得不放弃他..可她又真的能放弃吗?当她放弃的时候老天却让他们相识、相知到相爱,可是中途却出现个程咬金她被迫和他结婚。她将来的路是天堂还是地狱??那么就随瑾馨一起去探索吧!!!瑾馨因为家里一些琐事就草草封笔。月如就写到这里吧。
  • 好色王妃坐等王爷求被撩

    好色王妃坐等王爷求被撩

    一对姐妹花,意外被人追杀,不小心进入“学校禁地”打开一扇诡异的门穿越到古代,一场穿越,遇到意中人,白倾悠:"脑公,我要吃",无墨云:"脑婆,小心吃多没人要你╭(╯ε╰)╮"白颀悠:"没事,你要我(?????)?"夜沐倾:"要想利用我,回家去书房去,哼"无墨倾:"脑婆大人我错了(T_T)"夜沐倾:"乖啦~(* ̄з ̄)"
  • 玉井樵唱

    玉井樵唱

    本书为公版书,为不受著作权法限制的作家、艺术家及其它人士发布的作品,供广大读者阅读交流。
  • 负责到底

    负责到底

    他为了躲避妈妈安排的相亲,不管三七二十一钻进了管家女儿的被窝,这下可好,这每天跟在自己屁股后传情书的小Y头却已长大成人,不再是那乳臭未干的黄毛Y头了.怎么办怎么办?装作一切没发生,还是负起责任?................她明天就要出国留学了,闺中好友约好今晚一起出去庆祝,正当她换衣服的时候,却发现有人在敲门并不由分说地闯了进来,她只得光着身子躲进被窝,没想到他也二话不说,掀开她的被子就钻了进来.怎么办?怎么办?她被这个从小一起玩到大的色狼看光了,早就知道他花心,但兔子不吃窝边草啊,怎么他竟打起她的主意来?
  • 跨界仙尊

    跨界仙尊

    穿越到异界的成人灵魂附身少年身上十八年,醒来之后意外得到神物打神鞭,神物择主天自佑,且看主角是如何在魔法斗气横行的异界大陆上,成就仙尊神位。
  • 不朽箭神

    不朽箭神

    意外传承一位太古绝世强者的记忆,从此陆辰宛如彗星般崛起,修炼箭道,冠绝天下,箭无虚发,箭出人亡,一箭射苍穹,慑万族,逆天地,战天骄,夺气运,争生机,阵布八方,图谋万界!PS:本书纯属虚构,如有雷同,算我抄你!(求收藏,求推荐,谢谢大家!)
  • 都市修真实录

    都市修真实录

    从小成绩就是倒数第一的吊车尾少年李小强,从小就看惯了老师的冷漠、同学的嘲笑!终有一天他的运气不错,再被同学殴打过后,愤怒的他,走在大路上,被雷电劈中!本来是必死的局,可是却让他的身体接纳了雷霆之力!于是一连串的不可思议的事情,降临到了这个十七岁的少年身上!他,本来,是一个人人可欺的少年,注定了他拼尽了努力,也在这个物欲横流的世界当中,过不上人上人的生活,可是就在这一晚,他蜕变了!一切的一切,都在那个宁静而又不平凡的夜晚一扫而空了!一个平凡的少年,从此,超然物外,潇洒人间!一个平凡的少年,从此开始了茁壮成长。
  • 异域帝君

    异域帝君

    混沌出天地,一代帝王君。扶摇九天上,万界我为雄。混沌初开,万族共立,万法争辉。野蛮与粗鲁,只为求得生存,因为迈向强者的世界向来残酷。
  • 契法

    契法

    看一个宅男重生异界的崛起!魔法师?战士?一边去。“你敢和我单挑么?你一个人我一个人,不过我带一群魔兽!”叶白淡淡的说道。“同级我是无敌,世人谁能和我比天才?”某天才大吼。“不,其实你就是一个废渣,虽然我也只是一个幸运的渣渣!”叶白不好意思打击。越级挑战是有滴,女孩纸也是有滴,虐主更是少不得滴,因为叶白是不能无敌滴。“滚蛋,我就要无敌!”叶白大骂道!