登陆注册
8362000000042

第42章 计算机信息检索常用方法和步骤

一、计算机信息检索的方法

(一)布尔逻辑检索

布尔逻辑检索就是利用布尔逻辑运算符(AND、OR、NOT等)来对提问式中的各个检索词进行逻辑组配,以确定文献被命中的条件和组配次序的检索方法。它适用面最广,使用频率最大。布尔逻辑运算符有以下三种。

1.AND(或,):逻辑与

“逻辑与”用“AND”或“,”表示,检索式写作“A AND B”或“A,B”,是一种用于相交关系的组配,表示检索结果应同时含有检索词A和B的文献信息。“逻辑与”运算是一种缩小化检索。检索时,“逻辑与”组配越多,检索限定范围越小,检索命中的文献结果也就越少。

2.OR(或+):逻辑或

“逻辑或”用“OR”或“+”表示,检索式写作“A ORB”或“A+B”,是一种用于并列关系的组配,表示检索结果含有检索词A或者B,或同时有A和B的文献信息。“逻辑或”运算是一种命中条件扩大化的检索。检索时,使用“逻辑或”可连接同一检索式的多个同义词、近义词和相关词,扩大检索范围,检索命中的文献结果也就更多。例如某用户想查找研究杜甫的文献,检索途径选择题名后,输入“杜甫”,命中500多篇。但考虑到研究杜甫的文献题名中未必都出现“杜甫”两字,也可能会出现“杜诗”、“李杜”,于是改用“杜甫+杜诗+李杜”表达式,结果命中600多篇。

3.NOT(或-):逻辑非

“逻辑非”用“NOT”或“-”表示,检索式写作“A NOTB”或“A-B”,是一种用于排除关系的组配,表示检索含有检索词A而不含检索词B的文献信息。

“逻辑非”运算是一种缩小命题的检索。组配越多,检索命中的文献结果越少。使用“逻辑非”可以排除不希望出现的概念,提高查准率。常用于主题概念去除某段年份的文献、某个语种或去除某种类型(会议、期刊)的文献等情况。

当多个布尔逻辑运算符在一个检索式中出现时,它们的运算“级别”是不同的。大部分数据库是这样规定的:“-”优先级最高,“*”次之,“+”最低。在有括号的情况下,先执行括号内的逻辑运算;在多层括号时,先执行最内层括号中的运算。用这些逻辑运算符将检索词组配构成检索式,计算机将根据提问式与系统中的记录进行匹配,当两者相符时则命中,并自动输出该文献记录。

(二)截词检索

所谓截词检索,就是指用给定的词干做检索词,检索与含有该词干的全部检索词相关的文献。由于西文单词是由字母组成,许多单词具有相同的词干,为了查找某一词干的不同变化形式,做到一“词”多用,防止漏检,可进行截词检索。它可以起到扩大检索范围、提高查全率、节省检索时间等作用,对西文文献尤为重要。截词检索首先要对检索词进行截断,根据截断的位置不同,分为后截断、前截断、中截断、复合截断;根据截断的数量不同,分为有限截词(即一个截词符只代表一个字符)和无限截词(一个截词符可代表多个字符)。不同的系统所用的截词符也不同,常用的有“?”、“、”、“$”、“*”等。

———后截断(右截断),是将截词符放在一个字符串的右方,满足截词符左方所有字符的记录都为命中记录。例如:“HEAL*”,则前4个字符为“HEAL”的所有词都满足条件,系统可检出含有“HEALTH”、“HEALTHY”等词汇的文献。

———前截断(左截断),是将截词符放在一个字符串的左方,满足截词符右方所 有 字 符 的 记 录 都 为 命 中 记 录。如:“?GRADUATE”可 检 出 含 有“POSTGRADUATE”、“UNDERGRADUATE”等检索词的文献。

———中截断,是将截词符放在一个字符串的中间,满足截词符两侧所有字符的记录都为命中记录。这种方法对于解决英美不同拼法、不规则的单复数变化很有用。如:“M?N”可检出“MAN”、“MEN”等检索词的文献。

———复合截断,又称前后截断,是将前截断和后截断结合使用,即中间一致检索。如:“?MIGRAT?”可检出含有“MIGRATE”、“IMMIGRATE”、“EMIGRATE”、“MIGRANT”、“IMMIGRANT”、“EMIGRANT”等检索词的文献。

———有限截断,允许截去有限个字符,截几个字符就加几个“?”,空一格后加 一 个“?”表 示 截 词 符。如:“STUD????”可 检 出:STUDY、STUDIES、STUDIED、STUDING,其词尾可有0—3个字母。

无限截断,允许截去无限个字符,又称开放式截断。如:“COMPUTE?”的检索结果包括COMPUTE、COMPUTERS、COMPUTERED、COMPUTERING、COMPUTERIZATION……

(三)字段检索

字段检索,就是把检索词或检索式限定在某个(些)字段中。字段一般有两种类型,一是基本字段,即反映文献内容特征的主要字段;二是辅助字段,即反映文献外部特征的次要字段。如果某一记录的指定字段中含有用户输入的检索词,即为命中,否则,就将该记录排除。检索时,既可以对检索词进行字段限定,也可以对检索式或检索生成的文献集合进行字段限定。限定的方法一般是把指定字段的标识符(代码)作为后缀,加到检索词或检索式之后。

采用基本字段限定检索词的范围时,通常将字段代码放在检索词后面,中间用“/”隔开,被称为字段后缀检索,格式为:检索词/字段代码,如“档案信息/TI”(TI为题名字段代码),表示查找题名字段中含有“档案信息”的文献。使用辅助字段时要用字段前缀检索,即在字段代码放在检索次的前面,中间用“=”隔开,如“JN=WALLSTREET”(JN为期刊字段代码),表示查找发表在 WALLSTREET期刊上的文献。

(四)词位置检索

词位置检索就是利用位置运算符连接各个检索词,让计算机进行相应的位置逻辑运算,从而查找出所需信息的检索方法。其中,位置运算符是用于规定检索词在文献记录中的位置关系的符号。在实际检索中,利用位置运算符可有效提高查全率和查准率。

常用的位置运算符有:

1.有间断无序邻接

邻接符号NN,检索式为A(NN)B,表示它关联的两个概念 A、B之间可以插入0—N个其他词汇,且两个概念前后顺序不定(顺序可以颠倒),其中,N代表可以插入的词的个数。当N=0时,检索式可直接写作:A(N)B,例如“档案馆(2N)数字化”表示在“档案馆”和“数字化”两个词中间(顺序可以颠倒)不含有其他词(N=0)或包含有1个词(N=1)或两个词(N=2)的所有组合都符合检索的标准。

当连接符号只有(N)时表示用此符号连接的两个检索词(如A(N)B)可以按任意次序紧靠在一起,它们之间除可以有空格或标点外,不能有其他检索词(包括单词、字母或代码),即N=0.

2.有间断有序邻接

邻接符号NW,检索式为A(NW)B,表示它关联的两个概念A、B间可以插入0—N个其他词汇,但两个概念前后顺序固定,不可改变,其中N代表最多可以插入词的个数。当N=0时,检索式可以直接写作:A(W)B,它们之间除可以有空格或标点外,不能有其他检索词(包括单词、字母或代码)。

3.同字段邻接

邻接符号F,要求被连接的检索词出现在同一字段(FIELD)中,词序可变,字段类型可用后缀符限定。

例如:“MARKET?(F)INFORMATION/DE,TI”说明“MARKET?”和“INFORMATION”两个词必须同时出现在叙词字段或题名字段中。

4.同句邻接

邻接符号S,表示被连接的检索词出现在同一子字段(SUBFIELD)或同一自然句(SENTENCE)中,两个词之间可夹若干词,其先后顺序不受限制。使用该词位置运算符检索能使检索结果更准确些,但由于词与词之间位置关系限制比较严,所以有可能丢失一些与检索课题相关但词位置方面却不能满足检索条件的文献。从语言使用风格和技巧来看,同一思想、同一概念的表达可以有不同的形式,而且不同的作者也可能有不同的表达形式。因此,为了提高检全率可以放松对词与词之间的要求,改用同句位置运算符进行检索。

5.同文邻接

邻接符号C,它是CITATION的缩写,表示所连接的两个词在一篇文献的记录中查找,只要这两个词同时出现在该记录中,词序不分先后,也不分字段,中间插入词的个数不限。

6.同标引邻接

邻接符号L,是LINK的缩写,它要求所连接的两个检索词同时出现在标引词字段中,而且具有词表规定的等级关系。因此,这个运算符只使用于有正式词表,且表中词具有等级关系的数据库。

7.同自然段邻接

邻接符号P,是PARAGRAPH的缩写,检索式为A(P)B,表示它所关联的两个概念必须在同一自然段中出现。

二、计算机信息检索的步骤

(一)检索准备工作

1.分析检索课题

通过对检索课题进行全面的分析研究,明确待查课题的学科性质、主要内容、相关学科及检索目标,所需文献的类型、年限、语种、输出方式、检索费用等内容。

2.选用检索系统或数据库

利用哪些检索系统(或数据库)来进行查找,这直接与检索结果有关。要根据课题要求,综合考虑选用的检索系统(或数据库)涉及的学科范围、文献类型、存储年限、检索费用、使用方法等,选择与所查课题相适应、质量较高、检索手段较完善的检索系统和数据库。

3.选择检索词

检索词(或检索项)既是构成检索策略的基本元素,同时也是进行逻辑组配和编写提问检索式的最小单位。检索词选择是否恰当,将直接影响检索效果。在全面了解检索课题的相关问题后,提炼主要概念与隐含概念,排除次要概念,以便确定检索词。检索词的确定一般有以下几种方法:

一是选用主题词:当所选择的数据库具有规范化词表时,应优先从词表规定的专业范围出发,选用各学科具有检索价值的基本名词术语。

二是选用数据库规定的代码:许多数据库的文档中使用各种代码来表示各种主题范畴,有很高的匹配性。例如,世界专利文摘数据库中的分类代码、化学文摘数据库中的化学物质登记号等。

三是选用常用的专业术语:在数据库没有专用的词表或词表中没有可选的词时,可以从一些已有的相关专业文献中选择常用的专业术语作为检索词。

四是选用同义词与相关词:同义词、近义词、相关词、缩写词、词形变化等应尽量选全,以提高查全率。

4.编写检索提问式

在选择好检索词后,检索用户可以用布尔运算符或位置运算符对各检索词进行组配,构造检索提问式。从某种意义上讲,检索提问式是检索策略的具体体现,是检索构造中的关键环节,一个准确合理的检索提问式可以极大地提高检索的质量和速度。不同的检索者拟定检索式的方法和技巧各有不同,但有几条基本原则应遵守:首先,要符合概念组配的原则;其次,应拟定精练的检索式,能化简的检索式尽量化简。同时,对于位置运算符的选择,应根据文献中常见的词间关系来选择。把选择好的检索词用系统规则或允许使用的符号连接组配起来,便成为一条检索式。构造检索式常用到的组配符号主要有布尔运算符、截词符、位置运算符、字段限制符等。

(二)上机操作

步骤:进入检索系统—选择数据库或文档—选择检索途径—键入检索词—组配检索词—审核命中文献—优化检索结果—打印检索结果—退出检索系统。

同类推荐
  • 爱弥儿(经典超译本)

    爱弥儿(经典超译本)

    《爱弥儿》是一本小说体教育名著,1762年此书一出版,便轰动了法国与整个西欧,影响巨大。卢梭通过对他假设的教育对象爱弥儿的教育,表达了他从自然人性观出发的教育思想。他根据儿童的年龄提出了对不同年龄阶段的儿童进行教育的原则、内容,这些对今天的儿童教育依然有很大的借鉴作用。《经典超译本:爱弥儿》在尊重原著内容与结构的基础上,采用语录体形式,直接呈现原著中的经典段落与概括性结论,省却了繁复、冗长的论证过程。译者在领会原著者思想脉络的同时,于编译中巧妙加入了现代理解,缩小了阅读中的历史距离。行文简洁、有力,一改以往译文的晦涩拗口。
  • 土耳其人

    土耳其人

    该书阐述了土耳其的历史、文化和民情,以及如何与不同文化背景的人进行交流与合作等内容。
  • 夏洛特·梅森家庭教育法(精典教育)

    夏洛特·梅森家庭教育法(精典教育)

    本书是作者夏洛特·梅森在经过多年的实践和研究后写成的,介绍了孩子的思维过程,使家长在教育中不断发现问题,及时有效地解决问题。书中,夏洛特·梅森提出了自己的核心观点,即培养孩子的独立性,让孩子成长为一个有发展可能性和能力的“人”,避免成为一个只会读书的书呆子。
  • 媒介与民生:电视民生新闻的理论与实践

    媒介与民生:电视民生新闻的理论与实践

    我国当代民生新闻经过多年的发展,已经形成一定的社会影响力,广受社会大众喜爱,也是目前学界与业界共同关注与讨论的热点话题。电视民生新闻的兴起,既是政治民主化、媒介市场化与传播平民化的产物,又是中国新闻媒介“新闻本位”、“受众本位”观念的革新与强化。在构建和谐社会的时代背景下,“民生新闻”成为新闻媒介与社会环境形成良性互动的一种传播范式。平民化的传播理念与传播方式使民生新闻与普通老百姓的日常生活、喜怒哀乐紧密联系在一起,体现了“以人为本”、“三贴近”的社会政治话语与新闻媒介人文关怀、社会责任的价值认同。
  • 媒介舆论学:通向和谐社会的舆论传播研究

    媒介舆论学:通向和谐社会的舆论传播研究

    以宏大构架、多维视野和立体思维,全面勾勒中国和谐社会视野下舆论传播的特点、模式、影响、作用,对舆论传播学发生、发展的演进过程、特点进行全方位、多层面的系统描述、客观介绍和深刻分析,探讨当下舆论传播所面临的新机遇与新挑战,以及舆论传播成功引导的方法、手段、机制等,提出了一系列新颖、精的见解和观点。全书结构完整,论证严密,语言简洁,涉及广阔的国际国内背景,具有很强的学术价值和现意义。适读对象:宣传教育工作者、媒体从业人员、新闻传播专业师生、学术研究者。
热门推荐
  • 福妻驾到

    福妻驾到

    现代饭店彪悍老板娘魂穿古代。不分是非的极品婆婆?三年未归生死不明的丈夫?心狠手辣的阴毒亲戚?贪婪而好色的地主老财?吃上顿没下顿的贫困宭境?不怕不怕,神仙相助,一技在手,天下我有!且看现代张悦娘,如何身带福气玩转古代,开面馆、收小弟、左纳财富,右傍美男,共绘幸福生活大好蓝图!!!!快本新书《天媒地聘》已经上架开始销售,只要3.99元即可将整本书抱回家,你还等什么哪,赶紧点击下面的直通车,享受乐乐精心为您准备的美食盛宴吧!)
  • 凤临天下:独宠傲妃

    凤临天下:独宠傲妃

    我本是娇娇女儿身,怎奈冒名三皇子?没关系啦,反正父皇是明君,母妃最得宠,还有帅帅大皇兄,伦家好幸福!突然有一天,母妃失踪,父皇病故,奸妃篡位……这一切,我发誓,要替父皇讨回来!
  • 你的十四天,我的十四年

    你的十四天,我的十四年

    “等我回来,等我两个礼拜。”那个留着银白色长发的男人只给自己留下了这句话,此后的十四年,再无他的消息。他会回来的,是不是?
  • 一三年

    一三年

    公元前213年李斯辅佐祖龙嬴政扫去六合,建立秦国,定都咸阳,官拜丞相,迎来后世千古一相的美谈。前112年骠骑大将军霍去病于漠北大败匈奴主力,歼敌二万,后与封狼居胥山封狼居胥,自此成为历代兵家最高殊荣。前113年武帝封霍去病为大将军,加封大司马。2012年我的前世进入霍墓,当年是为世界末日。翌年死于洞中。xx13年我的今生进入霍墓,泪牛满面。。。。
  • 魔魂使

    魔魂使

    魔兽?魔法?通灵师?而我是魔魂使?一部穿越题材的西方奇幻小说,激情热血的格斗中不乏含有轻松搞笑的成分,一部以穿越与恋爱为题材的轻小说,就此带你进入奇幻的故事中……——零点界度
  • 画眉雨中飞

    画眉雨中飞

    朦胧中,烟雾似那薄薄半透明的纱,轻轻。是露水滴落的声音。淡淡,阳光已悄悄钻了进来,却不是我的心房…你悄悄立足又悄悄不在,却不是海水那般来的轰动天地,去时波涛涌动。或又是一池静水,沉睡的千年睡莲。
  • 那些年她的护花使者

    那些年她的护花使者

    知道自己的目标在哪里,心就会在哪里,成就就会在哪里,茫无目的的奔波只会让自己和身边的人的陷入水深火热的境地。青春的迷茫,主角是怎么度过的呢?
  • 异能女王老婆不准充后宫

    异能女王老婆不准充后宫

    什么鬼?!我好不容易休个假,居然就把灵魂休进另一个人的身体里了?!老天!我又没死,不需要让我穿啊!还是穿到了一个商业家族里,啊——这和我的专业不符啊!!唉!算了,穿了就穿了吧!我照样能重新站在世界顶端!!--------某男(羞涩):“心儿,我好爱你~”夜倾心(叶无心)直接色色的吻下去!又一个某男:“我不管,你要负责!”夜倾心:“不行!说好了咱俩是对手的,怎么扯到负责上了?再说了,我已经有上一个某男了!不能对你负责!!”这个某男气急:“你敢!”扑倒!
  • 命运之羁

    命运之羁

    主角凌宇本因为情场职场失意,再加上连连不断的厄运选择轻生,但在轻生前一刻救下了一位另一个世界的天使,穿越到另外一个世界。而另外一个世界正受到恶魔的侵蚀,主角利用从天使那得到的力量将拯救这个世界再拯救自己。
  • 随身带着异形皇后

    随身带着异形皇后

    “一切的伟大始于卑微的渺小!”“过去的强大源始能否圈定无限变化的未来?”