当今互联网上的商务信息已经呈爆炸式增长,用户在资源丰富的互联网上想要快速有效地查找信息,必须借助检索工具。检索工具现在已成为上网用户获取信息的必备工具之一,常见的检索工具有搜狐、百度、新浪、Google等,本节将简要介绍这些检索工具的分类及使用方法。
4.2.1 检索工具的分类
1.按照信息搜集方法分类
按照信息搜集方法的不同,搜索引擎系统可以分为三大类:
(1)目录式搜索引擎(Directory Search Engine)
以自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。这类搜索引擎的代表是:Yahoo、LookSmart、Ask Jeeves、Snap、Open Directory。国内具有代表性的有搜狐(Sohu)、新浪(Sina)、网易。
(2)全文搜索引擎(Fuller Text Search Engine)
通过在互联网上提取的各个网站信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此它们可称之为真正的搜索引擎。
从搜索结果来源的角度,全文搜索引擎可分为两种,其一拥有自己的检测程序,称为机器人搜索引擎(Crawler-Based Search Engine),由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在Internet中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。这类搜索引擎的代表是:Google、AltaVista、Inktomi、Fast、Lycos。国内有名的是百度(Baidu)。其二则是租用其他引擎的数据库,并按自定格式排列搜索结果,如Lycos引擎。
(3)元搜索引擎(Meta Search Engine)
这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的代表是:WebCrawler、InfoMarket。国内具有代表性的是搜星搜索引擎。
目前,商业的搜索引擎站点正在结合各种搜索引擎的优点,在类型上有逐渐融合的趋势。另外搜索引擎站点有“门户化”的倾向。
2.按照检索软件分类
按照服务提供方式的不同,检索软件也可以分为三大类:全文数据库检索软件、非全文数据库检索软件、主题指南类检索软件。
(1)全文数据库检索软件正常运作的前提是网站拥有大量的信息,因此必须依靠强大的数据库作为后盾。它能够提供完整的文献和信息检索,查全率很高。
(2)非全文数据库检索软件具有速度快、使用简便、索引量大的特点。
(3)主题指南类检索软件是目前网络检索中最常用的检索软件。这种软件查准率高,速度快,使用方便。现在大部分网站都具备主题指南类检索功能。
3.按照检索语言分类
目前,Internet几乎使用了世界上的所有语言。每一种语言都形成了自己独特的检索体系。比较常用的语言有英文、法文、德文、日文、俄文、中文等。
4.2.2 常用的检索工具
1.网易(www.163.net)
网易网站的搜索引擎先将用户的检索式在自己的分类库中进行查询,如果没有检索出结果,系统将自动将提问式转向全文数据库进行检索。如果在分类库中检索出结果,用户对检索结果不满意,可以直接按检索结果页面底部的全文检索按钮,继续在全文库中进行检索。
2.Google搜索引擎(www.google.com)
Google以其特有的网页级别技术,打破了传统的网络分类概念,是网页搜索技术的一次变革。该技术基于网页自然结构,即任何网页均可迅速直接地链接到另一网页,而无须任何媒介。在某种意义上,这种链接结构自动地推动了互联网中搜索技术的发展,从而使网络信息在站点与站点之间畅通无阻的传递。
Google良好的搜索功能和易用性已经得到了广大网络用户的欢迎,第一次进入Google,它会根据用户的操作系统确定语言界面,Google是通过Cookies来存储页面设定的。Google界面很简洁,Logo下面列出了用户经常使用的“网页”、“图片”、“资讯”、“论坛”、“网页目录”等搜索,在搜索文本框内键入要搜索的关键词,就可以查找到相应的资料。另外,如果使用一个Email进行注册登录,创建某个关键词的Google 快讯,就可以在邮箱中收到关于此关键词的最新信息。用户对它们进行充分利用,必将带来很大的便利。
3.百度搜索引擎(www.baidu.com)
百度是目前全球最优秀的中文信息检索与传递技术供应商。中国所有提供搜索引擎的门户网站中,超过80%以上都由百度提供搜索引擎技术支持。
百度搜索引擎由蜘蛛程序、监控程序、索引数据库、检索程序四部分组成。百度搜索引擎使用了高性能的“网络蜘蛛”程序自动地在互联网中搜索信息,可定制高扩展性的调度算法使搜索器能在极短的时间内收集到最大数量的互联网信息。