登陆注册
8362000000040

第40章 计算机信息检索原理及系统构成

一、计算机信息检索原理

人类的信息检索需求千差万别,获取信息的方法也各种各样,但信息检索的基本原理却是相同的。其本质的部分就是对信息集合和需求集合的匹配和选择。

匹配和选择是一种机制,它负责把需求集合与信息集合进行比较,寻找两者之间的相同或相似之处,然后根据一定的标准选出符合需要的信息。要想进行有效的匹配和选择,首先必须对大量的信息进行收集和加工处理,使之从无序到有序,并通过某种方法对这些信息的各类特征进行描述,让原来隐含的、不易识别的特征显性化,成为能被一般人所认识并理解的信息;另一方面,对用户提出的信息需求也要做类似的加工处理,即分析需求的内容,提取出主题概念和其他属性,并利用与信息集合相同的标识系统来表示需求中包含的概念和属性。

信息检索过程中要储存大量的数据,要对这些数据进行各种组合,有大量的排序和对比操作。为了提高信息处理的速度、准确性和可靠性,人们将计算机应用到信息检索中。计算机信息检索的本质与手工检索的本质没有区别,但信息的表示方式、存储结构和匹配方法变化了,即要用计算机可以识别的代码来表示信息,又要用便于计算机快速存取的方式存储信息。信息的匹配方法也由人工匹配变为机器匹配,匹配方式由隐式变为显式。在这种机器匹配过程中,原先在人工匹配中用于表达概念的语词符号变为没有内涵的字符串。因此计算机检索原理就是表示用户需求的字符串与计算机内存储的大量字符串(信息资料的集合)的比较和逻辑运算的过程。若二者一致或部分一致,并符合给定的逻辑运算条件,即为命中,然后将命中的信息输出给用户。

从上图可以看出,计算机一方面接受文献记录(即表示文献特征的各种款目及其标识),另一方面接受信息提问(即用户检索提问表达式),然后进行两者之间的匹配,以找出符合检索要求的文献。在计算机检索中,文献记录是以机读代码的形式存储在磁带上或存放在计算机磁盘上的,这样,计算机才能“阅读”和“理解”。磁带上或磁盘上机读记录的集合,叫做文档,或称为“数据库”。一条文献记录相当于手工检索工具的一条文献款目,即一张卡片目录。但是一条记录除了文献款目的内容外,还加上—些供计算机处理所必需的符号,如指示符、分隔符、字段或记录结束符等。记录中的数据单元又称为字段,相当于目录、文摘、题录中的基本著录项目,如书名、著者等项目。书目数据库是计算机检索的情报资源,除书目数据库外,还有事实型或数值型数据库、目录数据库、全文数据库等。

综上所述,计算机信息检索的原理可归纳为:将检索提问标识与系统中的存储文献的特征标识进行比较,进行字符串匹配和逻辑运算,并输出命中文献的过程。

二、计算机信息检索系统构成

(一)计算机信息检索系统的物理构成

1.硬件部分

它是系统采用的各种硬设备的总称,主要包括具有一定性能的主机、外围设备(包括外部存储器、输入输出设备等)以及与数据处理或数据传递有关的其他设备。主机要适应信息检索的需要,必须具有高速处理和超量存贮功能和分时多任务处理的功能。外围设备包括外部存储器、输入输出设备等。外部存储器应具有较大的存储容量。大型检索系统的外存容量一般都在数千兆字节以上。而且,还应具有多级存储系统,即调整缓冲存储器、主存储器、虚拟存储器、外部存储器,以便与中央处理机的速度相匹配,建立相对平衡的存储系统。输入输出设备包括各种必要的数据录入装置和输出装置,如键盘、光笔、鼠标器、光学字符识别装置、语音或图像输入装置、显示终端、打印机、绘图机、COM输出设备等。

2.软件部分

它是计算机检索系统中有关程序和各种文件资料的总称,包括系统软件和应用软件。系统软件一般包括操作系统、编译程序与汇编程序等。应用软件是根据具体工作需要而设计的数据库管理系统、词表管理程序、检索处理程序等。计算机软件是计算机检索系统所必需的技术。

3.数据库

要建立计算机检索系统,必须对所收集到的大量文献资料按一定的体系和规则加以处理,使之成为机读形式的数据。这种在计算机存储设备上按一定方式存储的相互关联的数据集合,就是数据库。数据库的本质是提供可以共享的有一定组织方式的相关数据。数据库是系统的核心组成部分,也是检索操作的直接使用对象。提供检索用的数据库存储在磁盘里。这些数据库一般是由数据库生产者提供、系统自建或与他人合建。一个计算机信息检索系统一般可提供数十到数百个数据库。在计算机信息检索系统中,多数数据库为关系型数据库。

按国际上通用的基本分类方法即根据数据库所含信息内容,数据库可以划分为参考数据库和源数据库。

(1)参考数据库(REFERENCEDATABASE)

参考数据库主要存储一系列描述性信息内容,指引用户到另一信息源以获得原文或其他细节的一类数据库。参考数据库主要包括书目数据库和指南数据库两种。

———书目数据库(BIBLIOGRAPHICDATABASE)是指存储描述如目录、题录、文摘等书目线索的数据库,又称二次文献数据库。

———指南数据库(DIRECTORYDATABASE)又称指示性数据库,是指存储关于某些机构、人物、出版物、项目、程序、活动等对象的简要描述的一类数据库。通过该类数据库可以查到公司、机构的地址、电话、产品目录、研究项目或名人简历等信息。

(2)源数据库(SOURCEDATABASE)

源数据库主要存储全文、数值、结构式等信息,是能直接提供原始资料或具体数据的自足性数据库,用户不必再查阅其他信息源。它的特点在于它本身含有一次情报,即用户作为检索目的而要求获取的数值、事实或文本。因此,源数据库可以包含数值数据库、文本-数值数据库、全文数据库、术语数据库和图像数据库等多类型数据库。

———数值数据库(NUMERICDATABASE)是一种专门提供以数值方式表示数据的源数据库。该类数据库提供了科学研究中试验、测量、计算、工程设计、经济分析和工业规划等方面的数据,也涉及社会科学中经济统计与预测、金融、商业及人口等方面的内容。与其他数据库比较,数值数据库是对信息进行深加工的产物,可以直接提供所需的数据信息。

———文本-数值数据库(TEXTUAL-NUMERICDATABASE)是一种能同时提供文本信息和数值数据的源数据库,如企业信息数据库、产品市场报告数据库、毒物数据库和物性数据库等。

———全文数据库(FULL-TEXTDATABASE)是一种存储原始信息全文或其中主要部分的源数据库,简称全文库。如法律法规全文数据库、期刊全文数据库、专利全文数据库、新闻消息全文库等。从信息源类型来看,它又属于文献数据库的范畴。目前全文数据库逐渐增加,如人民日报全文数据库和中国期刊全文数据库等。全文数据库虽然要占用很大的存储空间,但因它能使用户获得最终的一次文献,因此具有很大的发展前景。

———术语数据库(TERMINOLOGICALDATABASE)是一种专门存储名词术语信息、词语信息以及术语工作和语言规范工作成果的源数据库,俗称电子辞典。

———图像数据库(GRAPHICSDATABASE)是一种用来存储各种图像或图形信息及有关文字说明资料的一种源数据库,主要应用于建筑、设计、广告、产品目录、图片或照片等资料类型的计算机存储与检索。

另外,按其载体形式还可分为磁媒体数据库、光盘数据库、多媒体数据库等。

(二)计算机信息检索系统的逻辑构成

一个完整的信息检索系统通常必备以下六个功能模块:文献与数据选择与采集子系统、词表子系统、标引子系统、建库子系统、系统-用户接口子系统、提问处理子系统。

1.文献与数据选择与采集子系统

本功能模块的任务是根据系统的经营方针和服务对象的需要,以快速、经济的手段,广泛地、连续不断地采集各种数据,为系统提供充足而适用的数据源。

信息检索系统中的信息主要来自各种公开文献,如一次文献中的期刊、图书、研究报告、会议论文、专利文献、政府出版物、学位论文,二次文献中的文摘、索引和目录,三次文献中的百科全书、专科词典、辑录、指南、手册等。而这些情报源又可以以不同形式出现,如印刷型、机读磁带或软盘、光盘、缩微品或音像资料。在早些时候这项任务主要由系统工作人员承担,计算机只起辅助作用。采集的手段有订购、交换或利用行政手段搜集下属机构的数据,或利用已有的传统数据,如文摘索引、目录、手册、指南等。

随着通信技术与网络的发展,信息采集的内容与方法在很大程度上发生了很大的变化。从内容上看,采集的对象在原有的基础上有了扩展,增加了网络信息这一庞大的信息资源。从方法上看,检索系统也不再全部由工作人员完成,而是更多地借助计算机,通过编制一种机器人程序,自动地在各网页间搜集信息,以满足网络环境下信息采集的要求。

2.词表子系统

主题词表是控制标引用词和检索用词并使二者尽量取得一致的有效工具。词表子系统的主要功能是管理维护系统中已有的主题词表,使它与标引、建库等子系统相连接,支持用户的各种词汇查询操作,从提问、对话或其他文本中采集新的词汇信息,以及输出各种形式的词汇数据或词表产品(从个别词目、词间关系、词频数据到整部词表)。在信息检索系统中,此子系统既可独立存在,亦可以和建库子系统中的词典文档合并在一起。

3.标引子系统

标引,就是根据一定的规则和程序,对文献内容进行分析,然后赋予文献一定数量的内容标识(分类号、主题词、关键词等),作为存储与检索的依据。这是分析揭示文献主题特征,并使之显性化的过程,再录入计算机中。标引分为手工标引和自动标引。目前主题标引和分类仍靠手工完成,抽词标引可由计算机自动完成。通过标引,能将分散的资料彼此联系起来。标引子系统的功能决定数据库的标引深度和检索点,标引的一致性和实际的查全潜力,标引的贴切性和实际的查准潜力。

4.建库子系统

建库子系统的实质是将采集子系统所采集的无序信息进行有序化组织的过程。它的任务是对所采集的信息进行组织,建立并维护可直接用于计算机检索的数据库。主要功能包括数据评价与转换、数据录入、数据库的维护与更新。

数据评价与转换都是对信息进行规范化的过程。数据评价的目的是在数量庞大、种类繁杂的各种信息中,确保数据来源的可靠性、准确性和实用性。对于直接获得的数字信息还需要对其格式进行检测与统一标准化转换。

数据录入有手工录入与自动录入两种方式。手工录入在录入过程中应注意保持原始数据的完整性和准确性。自动录入主要用于对光盘数据库、磁带数据库等数字信息的套录或转录,以及通过扫描仪与OCR(光学字符识别)技术结合完成文献的数字化。

数据库的维护与更新是系统能够持久稳定运行的保证。维护主要指对数据库系统硬件设备的维修、保养和对系统软件功能的修改、扩充。更新主要指对数据库的内容进行添加或重新组织。

5.系统-用户接口子系统

系统-用户接口简称用户接口,是面向系统用户的一种“人—机”接口。它承担用户与系统之间的通信功能,是两者之间实现通信不可缺少的连接系统。系统-用户接口子系统通常由用户模型、信息显示、命令语言和反馈机制等部分构成。用户模型即是系统建立的用户认识模型;信息显示是指系统以屏幕显示形式提供给用户的各种信息,如菜单、窗口、帮助信息、错误信息等;命令语言是指系统提供给用户的检索命令集,包括基本命令(如检索开始、结束、选词、组配、显示、打印等)和扩充集(如截词、位置运算、限制检索、暂存检索策略、套录等);反馈机制,即系统对用户反馈的信息所作出的反应或操作。

此外,直接供用户输入信息的设备,如键盘、鼠标、触摸式显示屏和输出设备,也是用户接口的组成部分。依照这个子系统。检索系统可分为脱机检索系统和联机检索系统,指令驱动检索系统和菜单选择检索系统等。

6.提问处理子系统

该子系统负责处理用户输入的检索式或提问式,并将它们与数据库中存储的数据进行比较运算,也就是系统对检索式同文献记录进行比较而决定其取舍,然后把运算结果输出给用户的过程。该模块主要由检索程序构成,即根据用户的提问,从数据库中读入一批记录,与提问式进行比较,把满足要求的记录记入输出文档。信息检索系统中,计算机实际上是个高速的匹配器。这种匹配方式是对文档有顺序扫描和随机存取的方式。提问处理子系统实际上包括数据库在机器内文档的结构、信息检索软件。执行检索程序过程包括:接收提问—分析需求—提问校验—语法用词检查—提问加工—解释转换—提问检索—匹配选择—结果输出。

同类推荐
  • 论人类不平等的起源和基础

    论人类不平等的起源和基础

    本书是卢梭应法国第戎科学院的征文而写的论文。文中提出了私有制的出现是人类不平等的起源这一光辉思想。想阐述政治思想这一性质上,其重要性仅次于后来的《社会契约论》;而在思想体系上,本书可视为《社会契约论》的基础和绪论。
  • 外国语言文化研究(第1辑)

    外国语言文化研究(第1辑)

    影视翻译语境论——对译制问题的语言学思考、从单性到双性:格·斯泰因的《埃达》解读、国内ESP教学与研究综述、浅析话语实践分析教学法、略论西方女性主义文学批评的缘起及其三大主要流派、英语语言文化教育对二语教学的作用、英汉翻译中对含义的处理、论“情境演播”的语用意义——对促进快速掌握英语语言能力训练法的语用学理论点分析……
  • 在牛津和哈佛求学

    在牛津和哈佛求学

    近年来,与世界名校相关的书籍确实出了不少,但是本书与众不同的是作者从她在牛津大学攻读硕士学位,在哈佛大学攻读博士学位的亲身经历出发,结合高等教育的经典理论,向读者道出了高等教育的宗旨和目的。在阐述牛津和哈佛这类名校严谨的培训制度和优越的学术环境的同时,作者也指出了当今世界各地高等院校的通病和共同面临的困境。本书不仅能使读者切身感受到海外求学的细节和经历,而且还会引发他们对高教领域内诸多遭受忽略、但又无法回避的问题的思考。
  • 如何站好三尺讲台

    如何站好三尺讲台

    本书从教师的外在形象入笔,深入剖析,对教师素养、心态、语言、学习、管理等方面进行了主要概述。具体内容包括:教师的个人卫生、教师的站姿、教师礼仪、做一名阳光教师、微笑提高语言修养等。
  • 信仰追问

    信仰追问

    这本小册子,所说的信仰,不同于日常生活中人们恪守的个别信念或信条,而是关于信念的系统化的理论思考,是作者二十多年来关于信仰问题的不懈探求与追问。在论述信仰这一哲学味很浓的较为玄奥的问题时,作者梳理出101个问题,采用哲学随笔的形式,向读者娓娓道来:何谓信仰、谁在信仰、信仰什么、怎样信仰、信仰何用,极富哲理的语言,给人以思辨的体验和一种精神的愉快。
热门推荐
  • 苹果树之恋

    苹果树之恋

    没有人知道,以优秀成绩进入金泰证券的康子翔,其实是董事长的独生子;为了证明自己卓越的能力,他不直接入主公司,反而选择以实力进入最具挑战性的交易部。虽然才进公司不久,但有关他的上司──交易部经理倪静的流言,他已听得多了!据说,身为唯一一名女性主管的倪静,美丽能干、冷酷淡漠,是著名的冰山美人。的确,他俩第一次见面时,她只说了三句话;从此,她的身影便在他心底烙下了印!他看透了她的心,表面冰冷其实却脆弱;他欣赏她出色的能力,更爱极她的冷及艳;所有的计划就此改变,当他公布身分的那一刻,就是他对公主展开追求攻势的同时……
  • 国际贸易实务

    国际贸易实务

    我国在对外贸易经济活动中与有关方订立的合同很多,但货物买卖合同却是一种最主要的、基本的合同。这不仅是因为在我国的对外经济活动中,货物进出口是主要的、基本的,而且在进出口贸易中,除通常的逐笔成交以货币结算的单边进口或出口方式外,还有经销、代理、寄售、投标、拍卖以及通过期货市场(商品交易所)进行购销等贸易方式。随着加工、补偿等业务的开展,方式更趋多样化。
  • 艾森之旅

    艾森之旅

    一场风暴将轩宇卷入陌生的世界,只为了寻找回家之路。却不断的遇到各种麻烦。远古时代的机械,上古时代的生物研究基地,莫名出现的遗迹。以及。。。天。这是巧合还是阴谋。轩宇是否能找到回家的路。。
  • 极限超神传

    极限超神传

    天是拿来逆的,神是拿来超的,天才是拿来踩得,美女都特么是我的!我不是圣母,也不是恶人,我只是芸芸众生中的你我……
  • 红瞳之恶魔的专属天使

    红瞳之恶魔的专属天使

    ”法国人?在韩国住?哇塞!那你不仅会说中文,还会说法语和韩语咯?好厉害!”“嗯……嗯?你怎么知道我会中文?”“笨啦!我们现在不就在说中文嘛!”莜朵鄙夷的看着少年。“噗……”少年立马笑喷,“啊!美丽的小姐,我们说的是韩语!你自己说的什么话都不知道吗?!”————————口奈控、肉球球分割线————————她究竟是怎样一个人物?是英国皇室大公主,还是被人所抛弃的孤儿?是全球排行第一的公司——云灵总裁,还是在某男施舍的别墅里等待奖学金的特优生?是天才服装设计师stars,还是会把各种名牌视为粪土的审美败类?是著名女歌手demon,还是什么也不会唱的不入流?是世界第一杀手“零”,还是体育课都懒得上的白痴……甜蜜纯爱,加少量波折,球球绝对会让亲们满意开心爱到疯狂!
  • 偷个军阀做老公

    偷个军阀做老公

    开天辟地一声雷,我们的花百谷同学闪亮穿越了!可是为毛别人穿越不是古代皇朝,就是未来先进国家最次也是个异世大陆神马的,她呢?居然穿越到烽火连天,战争纷乱国弱民穷的抗战时期,而且一睁眼看到的就是一群……男人的那个,虽说她色一点,但也是女人好不好?会害羞的!虽说她是小偷,偷钱偷物从来不手软,但她是绝对不会偷人的!嗯嗯,最多……呵呵,就是调戏一下美男~\(≧▽≦)/~啦啦啦!一个,两个,三个,四个,不要这样看着人家了,当心,当心人家不小心吃了你啦!“花百谷!你丫的敢偷人!”正在某女花心荡漾的时候,忽然某黑脸帅哥一声怒吼,登时吓得某女浑身一颤。某女怒,“本人偷钱偷物,就是不偷人!”某男笑,“你是不偷人,但是你偷心,所以……”某女的小心肝微颤,想也不想撒丫子就跑,后面紧跟着一群疯狂而至的鸡鸭鹅狗,天啊!谁来解救她天下貌美无双的美女神偷水深火热啊!本文女主作中极品,作中典范。有风格,绝不乱吃!喜欢囧文和爽文的亲们请进,喜欢民国的亲们,让我们一起进入时空的隧道,尽情的领略抗战时期的叱咤风云!
  • 梦幻80后

    梦幻80后

    回到1985的80屌丝,用自己领先这个时代30年的知识改变了家庭,家乡,让华西村和小岗村的变化发生了自己的村上。改变了中医在国际中的尴尬地位,让中医学站在了世界之颠。同时世界500强的企业,他自己名下或自己参股的就占有三分之二还多,有人说他是世界的财神,也有人说他是成了精的金钱,且看这刚刚回到1985的小屁孩是如何改变这个时代的。
  • 全职猎人之冒险的浪漫

    全职猎人之冒险的浪漫

    魔兽、珍兽,秘境、魔境,财宝、秘宝。名为未知的词语所散发的魅力,吸引着一群不得了的存在。人们称之为“猎人”。
  • 爱你在心,口难开

    爱你在心,口难开

    自己默默的付出着一切就是想有一天你能回头可你从未回头过可我从未后悔过因为我爱你我可以付出一切哪怕是我的生命可是你却利用我对你的感情......为了自己爱的人,被逼下了悬崖,我从未后悔过,因为我爱你,即使你不爱我。可当我以另一种身份出现时,你对我的态度却有了翻天覆地的改变......
  • 恍恍惚惚的爱情

    恍恍惚惚的爱情

    想看男主与女主的火花吗?想看就来吧……………