登陆注册
8929800000012

第12章 数据存储与数据挖掘(4)

1.多媒体数据库

音频、图像、视频等多媒体数据已逐渐成为信息领域的重要表现形式。音频、视频的数据量很大,要从多媒体数据中找出所需要的数据和信息有一定的困难。目前,对多媒体数据的处理往往局限于存取、编辑、集成、快进快退等基本操作上,对多媒体信息的检索一般依据文件标识、关键字等进行,局限性很大。基于内容的多媒体检索,通过实例的查询方式,检索相似图像、音频、视频信息,已成为研究的热点,基于内容的音频、视频信息的聚类、分类、相似性查询等数据挖掘技术正在兴起。

2.空间数据库

空间数据库存储了大量与空间有关的数据,例如地图,预处理后的遥感或医学图像数据,以及VLSI芯片设计数据等:空间数据库有许多与关系数据库不同的特征。空间数据库包含了拓扑或距离信息,通常按复杂的、多维的空间索引结构组织数据,其访问是通过空间数据的访问方法,常用空间推理、地理计算和空间知识表示技术。空间数据挖掘是指在空间数据库中非显式存在的知识、空间关系或其他意义的模式等的提取,它需要综合数据挖掘和空间数据库技术。目前在GIS中得到广泛的应用,空间数据挖掘的方法主要有归纳方法、聚集方法、统计信息网格算法(STING)以及空间聚集和特征邻近关系采掘等。

3.文本数据库

一般认为,数据挖掘的大部分研究主要针对结构化的数据,如关系的、事务的数据川。然而在现实世界中,可获取的大邻分信息存储在文本数据库中,由新闻、论文、书籍、数字图书馆、电子邮件消息等各种数据源的大量文档组成。文本数据库中存储的数据一般是半结构化的数据,也可能包含大量的非结构化的成分。传统的信息检索技术已不适应日益增加的大量文本数据处理的需要,而用户需要知道不同文档的比较,以及文档的重要性和相关性排列,或需要找出多文档的模式或趋势。文本挖掘不仅仅是把统计模型应用到数据文件上,而且是揭示文本集合之间的联系。特别地,联机文本挖掘指把网上的文本数据仔细搜寻一遍并从中获得一些信息,目前是通过互联网的搜索和文本分析方法实现。

4.Web数据库

Web数据库是Web和数据库技术的有机结合,是一个庞大而复杂的数据库,其存储数据的最大特点就是半结构化。Web上的每一个站点就是一个数据源,每一站点的信息和组织都不一样,形成了一个巨大的异构数据库环境。Web数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询与集成问题,这就必须要有一个模型来清晰地描述Web上的数据。针对Web上的数据半结构化的特点,寻找一个半结构化的数据模型是解决问题的关键所在,另外,还需要一种半结构化模型抽取技术,即自动地从现有数据中抽取半结构化模型的技术。XML可看作一种半结构化的数据模型描述语言,将XML的文档描述与关系数据库中的属性一一对应起来,实施精确地查询与模型抽取。显然,面向Web的数据挖掘比一般的数据挖掘要复杂得多。

3.4.4数据挖掘的方法

1.神经网络方法

神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。典型的神经网络模型主要分3大类:以感知机、bp反向传播模型、函数型网络为代表的,用于分类、预测和模式识别的前馈式神经网络模型;以hopfield的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以art模型、koholon模型为代表的,用于聚类的自组织映射方法。神经网络方法的缺点是“黑箱”性,人们难以理解网络的学习和决策过程。

2.遗传算法

遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其他模型结合等性质使得它在数据挖掘中被加以应用。

sunil已成功地开发了一个基于遗传算法的数据挖掘工具,利用该工具对两个飞机失事的真实数据库进行了数据挖掘实验,结果表明遗传算法是进行数据挖掘的有效方法之一。遗传算法的应用还体现在与神经网络、粗集等技术的结合上。如利用遗传算法优化神经网络结构,在不增加错误率的前提下,删除多余的连接和隐层单元;用遗传算法和bp算法结合训练神经网络,然后从网络提取规则等。但遗传算法的算法较复杂,收敛于局部极小的较早收敛问题尚未解决。

3.决策树方法

决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。最有影响和最早的决策树方法是由quinlan提出的著名的基于信息熵的id3算法。它的主要问题是:id3是非递增学习算法;id3决策树是单变量决策树,复杂概念的表达困难;同性间的相互关系强调不够;抗噪性差。针对上述问题,出现了许多较好的改进算法,如schlimmer和fisher设计了id4递增式学习算法;钟鸣,陈文伟等提出了ible算法等。

4.粗集方法

粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点:不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。粗集处理的对象是类似二维关系表的信息表。目前成熟的关系数据库管理系统和新发展起来的数据仓库管理系统,为粗集的数据挖掘奠定了坚实的基础。但粗集的数学基础是集合论,难以直接处理连续的属性。而现实信息表中连续属性是普遍存在的。因此连续属性的离散化是制约粗集理论实用化的难点。现在国际上已经研制出来了一些基于粗集的工具应用软件,如加拿大regina大学开发的kddr;美国kansas大学开发的lers等。

5.覆盖正例排斥反例方法

它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则保留。按此思想循环所有正例种子,将得到正例的规则(选择子的合取式)。比较典型的算法有michal-ski的aq11方法、洪家荣改进的aq15方法以及他的ae5方法。

同类推荐
  • 马克思主义制度经济学

    马克思主义制度经济学

    本书运用制度经济学的方法研究马克思主义经济学,第一次比较系统、完整地构建了马克思主义制度经济学的理论体系和框架。在分析制度起源问题上,提出了马克思主义制度经济理论的两个基本假设;在经济活动与制度因素的关系中,提出了价值运动的两个制度条件;在资本主义经济运行制度问题上,重点分析了产权制度、企业制度、生产总过程运行制度;结合社会主义经济发展的实践,对财产公有制度进行了理论分析。在此基础上,对马克思主义制度经济学与西方新制度经济学进行了系统的比较研究,提出了比较研究的新观点。运用制度经济学的理论和方法,对我国经济体制改革实践进行了实证分析,从制度变革的角度揭示制度因素与经济活动效率之间的内在联系。
  • 中国粮食综合生产能力与粮食安全

    中国粮食综合生产能力与粮食安全

    本书重点评估了全国、不同区域及各省粮食综合生产能力大小及增长情况,分析了影响全国粮食综合生产能力因素的弹性和贡献率,设定了全国和粮食生产区实现2010年及2020年粮食安全的粮食综合生产能力目标,测算了达到目标所需要的要素投入,剖析了粮食物流业的现状和问题,粗估了生产区和主销区政府储备粮的比例。
  • 当代世界经济与政治

    当代世界经济与政治

    国际关系扑朔迷离,错综复杂,要进入世界政治与经济这个学科的大门,把握国际关系的本质,认清其发展的规律和趋势,必由之路就是熟悉国际关系的历史经验,掌握有关国际关系的基本理论。近现代国际关系的发展历程,是资本主义列强争霸和扩张的历史,也是国际社会的秩序和准则逐步形成、国家行为得以规范的历史。西方国家的学者从西方立场和角度力图探究国际关系发展的本质和规律,提出了一系列理论和主张,推动了西方国际关系理论的形成和发展。
  • 餐饮店财务管理从入门到精通

    餐饮店财务管理从入门到精通

    本书从餐饮店财务管理出发,精选出餐饮店日常财务管理最典型的案例,通过案例来剖析餐饮店财务管理的秘诀。
  • 中国新篇章

    中国新篇章

    本书以中国新篇章为主题,文章包括预测中国、中产阶级重塑中国消费市场、中国制造业迈入新时期、在PC+时代登上新高峰:杨元庆访谈录等。作者为麦肯锡全球各分公司的董事和顾问等。本书可供中国企业高管和相关研究人员参考、阅读。
热门推荐
  • 微信算命大师

    微信算命大师

    在线风水公众号?断吉凶、判阴阳,只用动动手指!月销售第一不够,还要财色兼收!用美色侮辱我?好,凶宅给你改成发财屋!用手段强迫我!好,海景房给你改成乱坟冢!被宗教界推崇为半神的神算子!“其实,我就是个搞推销的~”李轩在福布斯财富榜上谦虚的介绍道。
  • secret秘密

    secret秘密

    拥有相同面孔的双胞胎,却因为姐姐的嫉妒导致妹妹毁容,重获新生的妹妹又会怎么向自己的姐姐复仇呢,在这条路上又会发生什么呢?一起期待一下吧!
  • 郝言倾城

    郝言倾城

    一个是宠儿,一个是弃子。一个是本国皇室唯一血脉,一个是他国质子。一个风华无双傲然于世,一个满腹才华却无出头之日。他们朝夕相对,从玩伴到知己。当这份感情逐渐变质,困顿之兽挣开了牢笼,一个闪躲、一个全力争取。但当双方卸下心房时......他永远记得,那时他风尘仆仆赶到他身边,大殿上,众目睽睽之下,他对着他,双目清亮:我回来了......
  • 天亮了

    天亮了

    妮妮的第一本完结小说推荐,感兴趣的可以看一下哦!吼吼~地址:【http://novel.hongxiu.com/a/241208/《在错的时间遇上对的你》】新文文推荐:【http://novel.hongxiu.com/a/609592/《原来你也在这里》】爱是一场莫名的劫,情是一座迷宫,爱情就像一座在劫难逃的迷宫,有缘的人得而穿越,无缘的人深陷迷途……也许,对于世界而言,你是一个人,但对于我而言,你却是整个世界。你在时,你是一切,你不在时,一切是你。其实,我想要的并不多,只想你能珍惜我。所以亲爱的,请不要把我对你的爱当成你伤害我的理由,不要把我对你的宽容当成你欺负我的借口!
  • 中医脏腑辨证速记手册

    中医脏腑辨证速记手册

    本书按心、肝、肺、脾、肾五脏而分类,先介绍脏器的生理功能、病理特点,再配以各脏器的生理病理图,使读者能够根据症状迅速辨明、定位至何脏何腑。
  • 帝舞乾坤

    帝舞乾坤

    三宫两殿一洞一山庄七大宗派归隐,舞灵大陆以舞,风,云,雷四大世家为首的各大势力百花齐放。当乱世来临,七大宗派重回大陆,世俗界混乱不止,宗派界纷争不休,谁将独领风骚,七大宗派?四大世家?隐世紫云斋?神秘势力?一切依旧迷雾重重……
  • 多情道圣无情道

    多情道圣无情道

    一掌乾坤灭,一念天地生。少年十分胆,百分仁,成圣做祖寻长生。元林殇,前路断,英雄梦来儿女情长。少年从青州走出,怀着仁慈,挣扎在命运的前端,一步步解开那惊天的大谋。他害怕孤独,却总是孤独的上路,他不愿伤害,却不得不去伤害...。面对世人的愚昧、贪婪等等欲望他想到退缩,然而牵挂万灵命运的他却只能向前..。前路虽断,他开之;成圣无望,他逆之;一代天骄结识红颜,却黯淡收场...。踏遍九州留下他的足记,遍问长生只剩下他的无奈,然而...——天元大陆,一个被万祖遗弃的古地,一切善与恶的较量将从这开始...
  • 我的竹马总裁大人

    我的竹马总裁大人

    只是在错的时间遇到你,只是在对的时间错过你,对于爱情,我已老去。
  • 天极神武

    天极神武

    有一个地方叫做天极,那里是武者的世界,一个寻找身世的少年,踏着腥风血雨走出一条神武之路。
  • 关大王独赴单刀会

    关大王独赴单刀会

    本书为公版书,为不受著作权法限制的作家、艺术家及其它人士发布的作品,供广大读者阅读交流。