登陆注册
6501800000018

第18章 2 搜索引擎

3.2.1搜索引擎的系统结构与原理

搜索引擎的检索系统由以下几个部分组成:

1)搜索器

互联网每时每刻都在增加新的内容,为了及时反映信息源的情况,人们开发出一种名为“网络蜘蛛”或“机器人”的网页搜索软件,负责访问网络上的各个站点,搜集网上不断更新的网页信息并带回搜索系统。搜索器的主要功能就是在互联网中漫游、发现和搜集信息。它常常是一个遵循一定协议的计算机程序,即蜘蛛程序。她日夜不停地运转,要尽可能多、尽可能快地抓取网页搜集各类信息。同时,由于互联网上的信息更新非常快,所以还要定期更新已经搜集过的旧信息,以避免死链接和无效链接,保证检索结果的质量。

2)分析器

分析程序通过一些特殊算法,从蜘蛛程序抓回的网页源文件中抽取主题词,并对其赋予不同的权值,以表明这些主题词同网页内容的相关程度,以判断网页内容。分析程序的目的是从一个URL到相应网页的主题词建立起的一种关联,并通过对主题词的提取和分析,判断该网页所描述的信息。

3)索引器

信息进行分类整理,建立各种索引并更新搜索引擎数据库。索引器中将生成从关键词到URL的关系索引表。索引表一般使用某种形式的倒排表,即由索引项查找相应的URL,并以特定的数据结构存在索引数据库中。

倒排表是一个索引结构,包括两个索引表:文档表和术语表。

文档表由文档记录组成。每一条记录包括两个字段,一个是“文档标号”(DOC_ID),另一个是“张贴表”(POSTING_LIST),张贴表是一组出现在文档之中的术语的列表(或术语存储的地址表),它们按某种相关度量排序。

术语表则由一组术语记录组成,每一条记录中包含两个字段:一个是术语标号(TERM_ID),另一个也是“张贴表”,此表中记录了含有此术语的文档标号。

由此种结构可以很容易地完成诸如“请返回所有与一个(组)关键词相关的文档”或“请返回与给定的一个或几个文档中术语相关的所有术语”这样的请求。

例如,用户输入了3个关键词,则可在术语表中先查到三个术语的标号,取这三个标号对应记录中的所有文档标号的交集(公共部分),作为检索的返回结果。它们是同时含有三个关键词的所有文档的标号集,由此标号集对应为这些文档的链接地址,由此可链接并查到所有文档。

4)检索器

检索器的主要功能是根据用户输入的关键词在索引器形成的倒排表中进行查询,同时完成页面与查询之间的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。

5)用户接口

用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎、高效率、多方式地从搜索引擎中得到有效、及时的信息。

通过WEB服务器软件,为用户提供浏览器界面下的信息查询。每个搜索引擎都提供了一个良好的界面,并具有帮助功能。用户只要把想要查找的关键字或短语输入查询栏中,点击“查询”按钮,搜索引擎就会根据用户输入的提问,在索引中查找相应的检索词语,进行必要的逻辑运算,最后给出查询的命中结果(均为超文本链形式)。用户点击搜索引擎提供的链接点,马上就可以访问到相关网页。有些搜索引擎将搜索的范围进行了分类,如“网站”、“中文网页”、“新闻”等,在指定的类别中进行检索可以提高查询效率,搜索结果的“命中率”较高。

3.2.2搜索引擎的分类

1)按照信息搜集方法的不同分

(1)目录式搜索引擎(DIRECTORYSEARCHENGINE)。通过人工方式来搜集信息并对信息进行归类。首先,编辑人员通过查看相关网页,根据网页的内容提炼出主题词和网页摘要,并将该网页的链接归入事先确定好的分类目录中。这种做法与图书馆的分类人员所进行的工作类似。由于此类搜索引擎主要是由人工进行分类的,所以信息准确度高,能够比较好地满足查询者的需要。但是由于需要人工介入,因此目录创建的工作量大,收集的信息量有限,信息更新不及时。这类搜索引擎的代表是:YAHOO!。

(2)机器人搜索引擎(CRAWLER_BASEDSEARCHENGINE)。由蜘蛛人程序按照某种规则自动在互联网上搜集信息,并进行归类。具体内容参见上一节的介绍。这类搜索引擎的代表是:GOOGLE。

(3)元搜索引擎(METASEARCHENGINE)。元搜索引擎和一般搜索引擎的区别在于:元搜索引擎没有自己的数据库,它是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。这类搜索引擎的优点是返回结果的信息量大,缺点是不能够充分使用元搜索引擎的功能,用户需要做更多的筛选。网上的一些元搜索引擎地址如下:

HTTP://WWW。MAMMA。COM

HTTP://DOGPILE。COM

由于目录式和机器人式的搜索引擎各有优点,因此目前,各门户网站上的搜索引擎通常是将两者结合起来使用。例如,新浪在使用人工分类的同时,也使用了机器人搜索引擎。用户在进行查询时,可以同时得到两种不同的搜索引擎所反馈的结果。

2)按照检索软件分类

按照检索软件的不同,搜索引擎可分为三大类:全文数据库检索、非全文数据库检索、主题指南类检索。

(1)全文数据库检索。能够提供完整的文献和信息检索,查全率很高。但由于信息量非常大,检索起来比较困难,对检索技术的要求很高。

(2)非全文数据库检索。仅提供部分全文检索,有时需要二次检索,感到不太方便。但具有速度快、使用简便、索引量大的特点。

(3)主题指南类检索。是目前网络检索中最常用的检索软件。这种软件查准率高、速度快、使用方便。现大部分网站都具备主题指南类检索功能。

3.2.3搜索引擎注册

1)商业化注册及原因

在利用搜索引擎进行注册时,由两种途径。一种途径是分别到各个搜索引擎去注册;另一种途径是通过专业网站或软件进行一次性多个搜索引擎注册。

前者适合少量注册,后者涉及商业化的注册服务。在企业营销中,常用的是商业化注册。原因有以下几点:

(1)跟踪和了解搜索引擎站点资源是一件困难的事情

搜索引擎站点的数目很多,要掌握这些站点,并了解每个站点的特点,是一件十分困难的事情。用户如果逐一根据搜索引擎提供的站点注册入口进行注册,非常耗用时间。

(2)搜索引擎注册已经成为网络空间的一种技术

为了在搜索引擎结果中取得排名靠前,需要采用许多复杂的注册技术。搜索引擎排列结果所依赖的因素各不相同,而且搜索引擎本身也在不断变化,因此要想在众多搜索引擎中都取得靠前的排名,就必须针对不同的搜索引擎进行页面的优化。也就是说,要为每个搜索引擎定制不同的META和其他页面元素。

2)蜘蛛式搜索引擎的注册技巧

根据蜘蛛式搜索引擎的工作原理,可以采用如下一些方法使自己的网站排名尽量靠前。

(1)确定恰当的网页标题。网页标题是出现在WEB浏览器顶端名称栏的内容,即是网页文件源代码中<TITLE>标记符与</TITLE>标记符之间的那段文字。有些搜索引擎通过对网页标题的判断来确定网页主题内容是最重要的因素。所以,标题与主题的相关程度对决定页面的级别是非常重要的,在设计标题的时候应该紧扣页面的主题。

(2)META标记。<META>具有多种功能,具体的功能由它的两个参数指定。

其一,HTTP-EQUIV参数:具有多种功能,具体的功能由它的内容指定。HTTP-EQUIV=CONTENT-TYPE用来指定浏览器所使用的编码种类。

其二,CONTENT参数:具有多种功能,具体的功能由它的内容指定。CONTENT=“TEXT/HTML;CHARSET=GB2312"由来指定浏览器只使用GB编码汉字。

注意,这行语句的内容与格式基本上是固定的,不必深究它的细节,只要将它添加到网页首部即可。加入这行语句后,不管浏览器目前处于哪种编码状态下,“网上音像店”总是自动显示GB编码汉字。

此外,<META>标签能使搜索引擎更容易找到你的位置。在你的网页中<HEAD>标签和</HEAD>标签之间加上<META>标签,当然别忘了把你自己的信息填入引号之内。

<METANAME=“KEYWORDS"CONTENT=“ONLINEMARKETING,ONLINE,MARKETING,HIGHTECHNOLOGY,WEB,INTERNET,DUMMIES,GEN-IUSES,VEEBLEFETZER">

<METANAME=DESCRIPTIONCONTENT=“在互联网上订购、销售中外音像制品">:该行为搜索引擎提供简介信息;

<METANAME=KEYWORDSCONTENT=“音像">:该行为搜索引擎提供关键词信息。

注意:某些公司在他们的META标签内容上走了极端。他们使用了与之竞争的公司及其产品的名字作为关键字,以使访问者浏览自己的网站。这种行为不仅不道德,而且还会招致法律责任。

(3)拟定准确的头行和主体的内容。除了页面的标题之外,页面文件主体内容靠近主标题的正文部分的内容非常重要,通常也对搜索引擎判定页面的内容有较大的影响。并且有的搜索引擎,比如EXCIT就不支持META,它的“蜘蛛”软件自动将正文的前20行视为描述文字,并将其中重复次数最多的单词视为关键字。

(4)制作站点的通道页。多数搜索引擎拒绝对所递交的URL的第二级或第三级以下层次网页的索引。解决的方法就是做一个“通道页”(HALLWAYPAGE)。“通道页”中放置网站的所有链接。注意,某些搜索引擎限制接受同一域名下的网页数,所以建议在“通道页”中按网页的重要程度排序链接,而且每个“通道页”中的链接数应当控制在50个以内。

(5)优质的页面

其一,避免死链接。检查链接是否正确,避免死链接。

其二,蜘蛛软件对包含在图像中的超链接是不能识别的,也就是说,蜘蛛软件是不能沿着图像中的超链接过渡到下一个页面的。因此,除了图像链接之外还要包括文本链接。

其三,避免提交含有帧的页面。许多搜索引擎软件是不认识帧的。因此最好将主页设计成无帧的页面。

其四,经常更新。为了鼓励网页更新,搜索引擎将清除长期没有更新的网页。

3)目录查询站点的注册技巧

(1)提供良好的网页。由于网页经过人工的判断来决定是否纳入分类目录,所以设计良好的网页会增加进入搜索引擎的可能性。在YAHOO网站中,就明确指出了这一点。

(2)优秀的内容。根据搜索引擎的统计结果来看,尽管人们可以采取许多提升排名的方法,但是优秀的内容仍然是保证排名在搜索结果前列的保证。

(3)选好适合的目录。企业应当对自己的网站有一个准确的定位。企业需要研究搜索引擎的分类目录,看看企业的产品或服务最适合于哪个分类目录。登录到合适的网站目录对于企业的成功是非常重要的。

3.2.4搜索引擎流程图

在上网搜索之前,需要先定好计划,给出了一个搜索计划的例子,它以流程图的方式去搜寻关于“数据采掘”的学术文档。

3.2.5智能代理

1)概念

计算智能(COMPUTATIONALINTELLIGENCE)指用计算手段实现机器智能的方法,包括用符号运算和逻辑推理实现智能的传统人工智能和智能技术的新进展——神经网络(NEURALNETWORKS)、模糊逻辑(FUZZYLOGIC)、进化计算(EVOLUTIONARYCOMPUTATION)、混沌(CHA-OS)和粗集(ROUGHSETS)理论,强调依赖于数值数据的智能。

智能代理技术是计算智能的一种应用,它的硬件基础可以是互联网(INTERNET)或单片系统(SYSTEMONACHIP)。若使用互联网,智能代理可表现为在互联网上漫游的电子机器人群体,它们可用于完成各种各样的任务,例如,信息收集、网络控制等。若使用单片系统,它是单片系统中一种会学习的软件,该单片系统需嵌入在其他设备中使用,智能代理则以嵌入系统(EMBEDDEDSYSTEM)形式出现,这构成了智能设备。以嵌入系统为代表的嵌入计算正在成为信息技术后PC时代除互联网络外又一个国际研究热点。

2)应用

智能代理在许多方面有着重要的应用意义。

其一,信息服务。信息服务是最广大的用户群接触网络环境的首要渠道。对于信息内容已经相当丰富的英语文化圈来说,进一步提高信息服务的质量,改变目前信息服务中存在的“信息过载”和“资源迷向”的状况,是信息服务业面临的最紧迫的任务。智能代理正好可以适应这方面的需要。具体地说,用于信息服务的智能代理主要完成以下功能:①导航,即告诉用户所需要的资源在哪里;②解惑,即根据网上资源回答用户关于特定主题的问题;③过滤,即按照用户指定的条件,从流向用户的大量信息中筛选符合条件的信息,并以不同级别(全文、详细摘要、简单摘要、标题)呈现给用户;④整理,即为用户把已经下载的资源进行分门别类的组织;⑤发现,即从大量的公共原始数据(比如股票行情等)中筛选和提炼有价值的信息,向有关用户发布。这些都是使信息服务走向个性化主动服务不可缺少的功能。目前在此方面已经有了一些能够使用的系统,但智能化的程度还远远不够,且主动有余、过滤不足已经造成了一些负面的影响,亟待尽快发展更先进的人工智能技术予以解决。

其二,电子商务。越来越多的人看好INTERNET上的商业机会。网上的商品越多,在网上寻找商品就越是买方的一大负担;同时,卖方商品的推销也有一个对客户实行因人而异的主动服务问题。因此,采用智能AGENT系统,代表买方去网上查看“广告牌”、逛“商店”寻找商品甚至讨价还价,代表卖方分析不同用户的消费倾向,并据此向特定的潜在用户群主动推销特定的商品,都是非常有诱惑力的。

现在已经出现了几种在网络上运行的智能代理软件(比如WWW。SHOPFIND。COM,WWW。ROBOSHOPPER。COM),尽管人们对智能代理软件的期望很高,但是由于技术方面的限制,智能代理软件的功能仅限于完成某些特殊的功能,还不能尽如人意。

同类推荐
  • 玩转魔方步步高(青少年挖掘大脑智商潜能训练集)

    玩转魔方步步高(青少年挖掘大脑智商潜能训练集)

    潜能是人类原本存在但尚未被开发与利用的能力,是潜在的能量。根据能量守恒定律,能量既不会消灭,也不会创生,它只会从一种形式转化为其他形式,或者从一个物体转移到另一个物体,而转化和转移过程中,能的总量保持不变。
  • 旅游市场营销管理

    旅游市场营销管理

    本书包括旅游市场营销管理的概念体系与职能、旅游市场营销信息管理、旅游市场营销战略管理、旅游市场营销财务管理、国际旅游市场营销管理等内容。
  • 社会调查研究方法

    社会调查研究方法

    本教材可供高等院校社会学专业教学主干课程使用,同时也可作为各相关专业的本科生、研究生以及从事教学科研、政策研究、市场调查和对社会调查研究方法感兴趣的同仁们进行理论研究、方案设计、现场实施、资料分析、撰写报告等教学科研与咨询服务的参考用书。
  • 王子复仇记

    王子复仇记

    本书讲述了丹麦王子哈姆雷特原忽然得知父王暴死,为奔父丧,他回到了丹麦宫廷。这时王位已被叔父克劳狄斯占据,而自己的母亲也已匆忙地嫁给了这个新王。他知道了父死母嫁和窃国夺位的反常现象皆由克劳狄斯的阴谋造成后,为报父仇,也为了重整乾坤、改造社会,哈姆雷特同自己的叔父以及宫廷展开了一系列的斗争。而为了彻底看清克劳狄斯的嘴脸,也为了保全自己,王子不得已假装“疯癫”。然而斗争的结局却是悲剧性的。
  • 行政法学

    行政法学

    提高行政机关和国家公务员的依法行政水平,坚持依法行政、从严治政,是建设社会主义法治国家的关键。本书针对我国政府公共管理的需要,侧重从行政管理的角度,系统阐述行政法学的基本概念、原则,重点分析行政主体规范、行政行为规范、行政救济规范和监督行政规范等四方面内容,使读者阅读后能对行政法学的各项基本概念和原理,诸如行政主体、行政行为、行政立法、行政程序、行政复议、行政诉讼等内容及其发展,有比较全面的了解。本书既可作为酝孕粤学位课程的专用教材,亦适合作为行政管理学及法学专业的本、专科基本教材。
热门推荐
  • 九爷传说

    九爷传说

    九爷第一个报名参加了甘南藏区支教的任务。美丽的甘南草原,漂亮的藏族姑娘,还有那祁连山脉巍峨的雄姿。这一切都和那条蜿蜒流淌的大河紧密联系。是那条河里的青龙一次次唤醒九爷生命的本体,那是山的呐喊,更是神的呼唤,当爱情在昆仑山顶的雪峰上盛开时,九爷在雪莲花旁听到了天籁之音。九爷牵挂着老父老母,牵挂着饥肠辘辘的兄弟姐妹,挥泪别离了美丽的姑娘,经过九死一生回到了青城。青色的河水却忽然掀起波涛,九爷知道那条龙再次发飙。回去的路太漫长,九爷用一生都在往甘南走,却再也没有回到美丽的姑娘身边。九爷夜夜都梦见青龙的双目,那是怒视更是谴责。九爷的心中永远都在怀念雪山上的雪莲花。
  • 青葱半夏

    青葱半夏

    生活在蜜罐里的钱桐在14岁生日时遭遇了人生第一大变数,父母双亡,自比他一人肩负起了照顾外婆的责任,来到清乐酒吧驻唱没有多久便被好友撞见,无奈之下只好来给人家弟弟当家教,从此平淡的生活被打破,不知是机缘巧合还是别有深意,江月居然也来到了他所在的学校,还有清流…
  • 亚特兰蒂斯的地下世界

    亚特兰蒂斯的地下世界

    一个生活在2010年的青年在自己的奶奶死前交予的手镯所引伸到远古时代亚特兰蒂斯的文明古国的地下城市的继承秘密。这个青年经历世界各国的特工以及文明古国的大家族的抢夺和追杀,在这经历中认识一些有异能或武功的朋友帮助下,继承这地下文明城市王国。(续集利用地下文明城市科技去寻找生命起源)
  • 女阁

    女阁

    3年前的今日,3年后的今日。去也匆匆,回也匆匆。奇异的邂逅,难以捉摸的涟漪。风华是一指流砂,苍老是一段年华。愿用一生风华与你携手共谱年华。**********[长版]**********3年前的今日,3年后的今日。站在古老街头,顾云丽手里还拿着咖啡。老天,你也太过分了吧,让我穿来穿去有意思吗?一道响雷……好歹让我明天领了艾美奖服装设计奖再弄我回来啊……倾盆大雨,这是让我清醒接受吗?你才疯,你全家疯。貌似闯祸了……怎么办?三十六计,走位上计。人家刚回来容易吗,为何偏偏栽在一个无耻小气记仇的帅男手上。占我地,本想讨债熟知变还债,天呐,给道雷劈我回去吧……
  • 福妻驾到

    福妻驾到

    现代饭店彪悍老板娘魂穿古代。不分是非的极品婆婆?三年未归生死不明的丈夫?心狠手辣的阴毒亲戚?贪婪而好色的地主老财?吃上顿没下顿的贫困宭境?不怕不怕,神仙相助,一技在手,天下我有!且看现代张悦娘,如何身带福气玩转古代,开面馆、收小弟、左纳财富,右傍美男,共绘幸福生活大好蓝图!!!!快本新书《天媒地聘》已经上架开始销售,只要3.99元即可将整本书抱回家,你还等什么哪,赶紧点击下面的直通车,享受乐乐精心为您准备的美食盛宴吧!)
  • 别让不懂幽默害了你

    别让不懂幽默害了你

    幽默是人的能力、意志、个性、兴趣的综合体现。幽默是社交的调料,有了幽默,社交可以让人觉得醇香扑鼻,隽永甜美。幽默是引力强大的磁石,有了幽默,个人魅力无形增值,会把一颗颗散乱的心吸入它的磁场,让别人脸上绽开欢乐的笑容。本书用精彩的理论和有趣的故事,展示幽默的力量、揭示幽默的技巧,告诉读者幽默能使批评和反驳被对方接受,幽默能使长篇大论的演讲富有感染力,幽默能使人际关系变得融洽,幽默能使生活充满乐趣,启发读者了解幽默、认识幽默,更好地掌握和使用幽默这门艺术,说幽默话做幽默人,增进沟通,改善人际,促进工作,获得优质高效的人生。
  • 俏保安奇遇记

    俏保安奇遇记

    从小在云华山长大的和尚一通,俗名赵一通,因尘缘未了,被师父赶下山,来到省城某娱乐场所做保安,开始了他在花花世界的奇遇:风尘女子、小三、女豪门、闷骚的女作家、大学生、带着孩子的单亲妈妈,从青葱少女到徐娘半老,无不为他如花的面容婴儿般纯净的眼神迷倒,混混、大哥、白领、公务员乃至总裁无不为他的单纯仗义折服,外表斯文却逢花必摘,处处留情不留种,美名其曰:急人之难为难,舍身助人。看他这个草根怎样玩转都市……
  • 幸存者语录

    幸存者语录

    我很难说,现在的我处于一个怎样的状态,复杂,迷茫,希望与绝望交织。我很不愿意提起这段经历,但如果我们这群人在某天突然死去,那么这一切都将被抹杀在时光的海洋中,没有人会记得或是提起,一切的痛苦与牺牲都将毫无意义。说来很讽刺,原本最不该活下来的我最终偏偏活了下来,成为这个故事的记叙者,以文字的方式来向大家叙述别人的生死与价值。我不能说,这对我来讲是幸或不幸,存者且偷生,死者长已矣。对于死者来讲,一切在闭眼的那一瞬间就已经没有失去了必要的价值,而对于我这样活着的人来讲,噩梦才刚刚开始。让我与你们分享我的故事,同时也为回忆那些一路与我同行的人,回忆美丽的藏北高原,回忆那些未知历史文明的遗迹。
  • 半梦仙缘

    半梦仙缘

    一狐,你眉眼带笑只为我。一仙,你妖媚的眸子里只有我。可什么时候,你冰冷我无情,那一刺到底伤了谁的心?待十里山桃花盛开时,暮然回首,你就在我的身后。记忆长发被风吹起,勾起岁月的相思。小风乍起,点起微微灯光,缥缈的帘纱后,如玉的仙人起身,低头浅思,“初灵你可安好?”千言万语抵不过一句我爱你——此情可待追忆时,你已经不在。
  • 暮城雪拂缇

    暮城雪拂缇

    爱与不爱之间,没有界限,情到深处,难言孰是孰非,一个是公主,一个是重臣,家国年前,他们将何去何从!