登陆注册
9671800000070

第70章 科普搜索的研究与实现(1)

吴晨生 刘彦君 张鲁冀 董晓晴

(北京市科学技术情报所,北京,100876)

摘要:本文综合应用主题搜索技术和深网信息集成技术,设计并实现了一个基于科普领域的主题深度搜索引擎。文中介绍了系统的体系结构、主题信息采集策略以及所使用的关键技术,并通过实验验证了网页分类器的高准确性,最后设计实验验证系统搜索效果并对相关工作进行了比较分析。

关键词:深网主题搜索引擎主题分类机器人网页分类器

一、引言

目前,针对某一领域的主题搜索引擎的研究已成为研究热点之一,超过50%的深网内容是特定于某个领域的,即面向某个领域,针对基于领域的深网信息集成技术的研究也成为当今信息检索领域研究的一个热点。本文所描述的科普深度搜索引擎正是上述两种技术结合于科普领域的产物。

二、系统结构

本文在传统的主题搜索引擎体系结构的基础上,加入了深网信息集成方案,研究并利用科普领域知识的特征,设计出科普深度搜索引擎的结构。

现对主要部分做简要说明:

(1)主题分类机器人:完成从web中采集科普领域信息并入库的工作;

(2)深网信息集成:协调调用相应机器人完成对指定深网网站的实时检索功能并将合并结果返回;

(3)索引器:完成对库中科普领域数据创建索引文件的工作;

(4)查询器:根据用户输入的查询条件查询索引文件并返回查询结果;

(5)用户接口:为用户提供综合的查询接口。

三、主题信息采集策略

本文研究分析了科普领域信息的特征,并根据这些特征,有针对性地设计主题信息采集策略。

1.科普领域信息特征分析

通过研究观察发现,科普领域信息在网络分布上和覆盖范围上有以下特征:

(1)网络分布上:科普领域信息多以块状分布于整个web中,其中每一个块多以独立的网站形式存在,少数块存在于大型网站的二级结构中,更少数的科普信息散落地存在于网络中。

(2)覆盖范围上:相较于其他主题信息如林业、农业以及医学等,科普领域信息覆盖范围较大,如天文、地理、生物、历史考古、IT等均属于科普领域。

针对上述特征分析,得出如下分析结果:

①科普领域信息的块状分布有利于我们对大部分信息的集中采集,目标是找到尽可能多的块,放弃少数散落的科普信息,这是对科普信息高效采集的一种考虑。

②基于领域的深网信息集成技术是科普领域信息搜索的可行思路。

③由于科普领域覆盖范围较宽,我们将科普主题进行了分解,将其分为天文主题、地理主题、生物主题、考古主题以及综合主题,分别提取各子类主题特征,综合所有细分主题的特征作为科普主题判断依据。

2.数据采集策略设计

根据上述分析,我们设计出两种科普数据采集方案:人工干预策略与先采集后过滤策略相结合的主题爬虫采集策略;科普领域深网信息集成方案。

(1)主题爬虫采集策略能够高效完成对大量科普领域信息的采集。策略描述如下:

①收集科普主题网站作为主题机器人爬行的种子urls并入库保存;

②机器人从库中读取一个url;

③机器人以读取到的url为起始链接,以宽度优先策略进行遍历;

遍历过程遵循规则:若待爬url为种子url域名内链接,则直接抓取此页面;否则,用网页分类器对此url页面进行分类过滤,若属于科普领域页面则抓取,否则放弃此url。

④循环上述②、③步骤。

(2)科普领域深网信息集成方案描述:首先,有针对性地选择查询效果好的科普网站,分别制作表单查询机器人;其次,设计调度机制。根据用户选择调用相应的表单查询机器人,由其填写表单进行实时深网信息采集。

四、关键技术

科普深度搜素引擎所使用的关键技术有主题爬虫技术、深网信息集成技术以及基于Lucene的索引机制,下面对这些技术进行详细分析。

1.主题分类机器人

科普深度搜索引擎的主题分类机器人通过站内网页判断和科普网页分类两种方式对网络信息进行过滤抓取,有较高的分类准确率和采集效率。

(1)机器人架构

机器人的制作基于工作流/组件技术的网页信息抽取系统VWIE来完成。利用VWIE的组件可扩展性,我们为其添加了分类器组件以及域名判断组件,用以实现具有页面过滤和站内页面判断功能的主题分类机器人的制作。

(2)分类器核心算法

SVM分类算法是目前分类效果非常好的一种文本分类算法,故本文系统分类器采用SVM分类算法。支持向量机理论(SVM)最初来源于数据分类问题的处理,简单地说,SVM就是要寻找一个满足要求的分割平面,使训练集中的点距离该平面尽可能地远,即寻求一个分割平面使其两侧的margin尽可能最大。一般分为线性可分和线性不可分两种情况讨论:

给定一组训练样本集(x1,y1),(x2,y2),…,(xi,yi),其中xi∈RN为N维向量,yi∈{-1,1}。

(3)分类器准确率实验

①分类训练样本设置

训练样本分为科普和非科普两类,我们对这两类进行了细分,尽可能多地将其划分为小类。

②实验结果

我们人工从目录网站及Google上共搜集到349个科普网站,随机从中选择50篇网页作为科普类网页,从新浪博客中人工选取50篇网页作为非科普类网页作实验数据。

实验结果表明:SVM分类器用于科普主题分类有较高的准确性。

2.深网信息集成

根据用户的选择协调调用相应机器人、机器人对用户选择的深网网站进行实时检索,最后合并机器人查询结果返回给用户接口。

(1)技术基础

系统深网信息集成的技术基础是基于网页结构分析的表单填写技术。

(2)集成框架

3.基于Lucene的检索机制

系统信息检索部分使用Lucene实现索引器和查询器功能,但Lucene中文分词并不十分理想,因此利用Lucene的可扩展性我们使用现在较为流行的开源中文分词庖丁解牛技术代替原有的分词。替换后效果明显,很大程度上优化了索引质量和查询效果。

索引器主要完成将切词形成的顺排档文档组织成倒排档索引数据。索引的建立即索引器的实现,主要分两步:首先构造一个Document的文档对象doc,其中包括描述数据域和正文数据域,这是因为只有符合Lucene.Document要求的文档才能使用Lucene对其建立索引。

同类推荐
  • 领导干部信息化基础

    领导干部信息化基础

    本书共分6章,分别介绍了计算机网络综述;信息化的三个主要领域,即电子政务(政府信息化)、企业信息化和电子商务;PowerPoint 2000中文演示文稿等内容。
  • 初级会计电算化

    初级会计电算化

    本书是作者根据历年会计从业资格考试的考试大纲以及多年对真题的分析,并结合多为专家、学者的实践经验而编写的。本书主要分为八套模拟试卷,以对考生考前的学习进行模拟实战,达到提高考生成绩的目的。
  • 小型局域网组建与维护

    小型局域网组建与维护

    本书以组建和维护小型局域网为主线,面向实际工程应用,按照项目化课程模式的要求组织编排。全书共分8个项目,主要包括认识计算机网络一概述、绘制小型网络拓扑图、连接网络一传输介质、连接网络一联网设备、认识计算机网络一网络协议、连接网络一网络寻址、组建小型交换网络——配置交换机、连接互联网——配置宽带路由器。每个项目都有明确的工作目标、工作任务、实现过程和知识点分析,力求集教、学、做于一体,从而更好地激发学生的学习兴趣,培养学生的动手能力。
  • 数字博物馆研究与实践2009

    数字博物馆研究与实践2009

    本书汇集了“2009年北京数字博物馆研讨会”与会代表提交的60余篇论文和演讲报告、应用案例,分为数字博物馆(科技馆)发展研究探讨、数字博物馆(科技馆)多样性发展模式、数字技术在博物馆(科技馆)展陈中的应用、数字博物馆(科技馆)建设实践、数字博物馆(科技馆)实现技术和数字博物馆调研报告等六个部分。本书内容囊括了对数字博物馆(科技馆)建设宏观层面的全局思考以及微观层面的具体实践。在宏观层面,介绍了数字博物馆(科技馆)在国内外的发展现状与趋势,通过剖析典型案例,探讨数字博物馆(科技馆)建设的意义、目标、作用、建设原则、要素、特征及目前建设工作中存在的现实问题与对策。
热门推荐
  • 我想写本皇家魔法学院

    我想写本皇家魔法学院

    恶魔果实对战魔法世界谁会赢,霸气,武技!
  • 极品名医:胜女的春天

    极品名医:胜女的春天

    去三亚的路上遇到了一个极品小医生,他冰冷孤傲,独树一帜,立志推翻西医中医,自成一派。他看淡生死,无视人情,却落入了她一步步布好的情欲陷阱。欲仙欲死的时候,她总是笑道他像冰一样坚硬,但她却是能融化他的温水;欲罢不能的时候,他说,想逃出我的手掌心,先问问二妹答应不答应!
  • 被传承的守护者

    被传承的守护者

    每个生命生来都有着属于他或者它的守护灵,它们随着生命诞生而诞生,随着生命消亡而消亡,不被任何生命所察觉,近乎毫无意义的存在,本该如此,可这世间没有毫无意义的东西。
  • 莫要梅落空时言

    莫要梅落空时言

    她是将军小姐,他是太子,两小无猜,可是他是帝皇时,他亲手写下诏书,她父母双亡,他亲手带兵杀了他们俩最好的朋友,他说他爱她,却是为了天下,她笑笑天下。他是邪王,却爱她入骨,天下算什么,你就是我的天下
  • 入梦文明

    入梦文明

    梦魇轮回,以梦构世。文明的征途,由此开始。虚幻的文明,既定的结局,毁灭,亦或新生。死寂的沙漠,毁灭~涅槃;高武的王朝,勾心斗角;崩坏的世界,吃人的历史;蛮荒的世界,纯朴~野蛮;机械的国度,无限沉沦;鬼怪的世界,诅咒唯一;进化的世界,优胜劣汰;神灵的国度,信仰迷失;修仙的世界,跌下仙坛;理想的天朝,人人如龙。文明的征途,在这里,探究文明的始末,轮回,你,准备好了吗?
  • 恶魔王子的专属KISS

    恶魔王子的专属KISS

    他竟然夺取了她的初吻,并说喜欢上了她,这究竟是怎么一回事啊?他发现了自己喜欢上的女孩是小时侯和自己许下承诺的女孩,而她却全然不知.........他们究竟会发生怎样的事呢?
  • 门徒信仰

    门徒信仰

    【重点提示】1.本书不是一本善良的书2.本书不是一本快乐的书【以下人员请绕道】1.二十岁以下未成年者2.有任何程度抑郁症者3.忧郁症患者4.抱着理想主义人生观者故事从一个连大学都没有考上的小白入伍去了火箭军讲起……谈信仰?别逗了!开网店?可以有!……酱紫吗?不不不……男主活动轨迹遍布亚欧大陆,东南亚、神州大地,路过草原、路过森林、路过湖泊、也路过沙漠……根据真实事件改编!PS:这是一部脱离了低级趣味的书一点也不轻松却可以让您反思的书凡事不会一蹴而就,潮起潮落又为了什么?亲情、爱情、友情、财富、历史、宿命……茫茫人生中谁又不是沧海一粟?
  • 呵你是我的

    呵你是我的

    古老的墓室里竟穿出女婴的啼哭声,那声音好像具有什么号召力,墓外千万之斓曦(类似于猫)若隐若现的闪着那似蓝宝石的眼,死死的声音的来源之处,古老魔法的开启,新生命的诞生,预言即将实现,迷茫黑暗的那一端,将迎来生命的曙光,他的到来是福是祸,魔法不是绝对,不是万能,她犹豫不决,,同心锁,守护,只为你一句我爱你……
  • 艳杀天下,帝女风华

    艳杀天下,帝女风华

    乱世开始,群雄争霸。她是前朝遗孤,弱国公主,也是天命帝女长孙倾华。联姻出嫁那天,她对着城门俯身三叩,无愧母国养育之恩,为世所称赞。他是西兰贤德世子百里无忧,以统一天下为己任,却是在第一眼就看中长孙倾华,点名娶她。联姻途中,徒生变故,百里无忧开始了漫漫追妻之路。明月楼,桃花曲,她一曲倾尽天下。意外重重,情敌多多,惊喜连连,追妻之路且行且忧。那日,百丈城楼前,他以十里红锦,百里桃花,倾国相许。她站在城楼上,明媚如花:“你若为帝,我便双手奉上万里锦绣河山。”他抬头,绝代风姿:“既然我喜欢你,别说什么十里红锦,百里桃花,就算拱手江山讨你欢,我也甘之如饴。”百年后,这于乱世中的一笔风月,终成传奇。
  • 神级异能小子

    神级异能小子

    “你好,我叫白迟!”中二少年被雷劈,有幸拥有异能术,却换了一个灵魂。“这世界美女还是蛮多的!”“我要看遍天下美女!”“我真的是走运了!”……“……美女离开我,我虚啊!”“……”