登陆注册
9671800000070

第70章 科普搜索的研究与实现(1)

吴晨生 刘彦君 张鲁冀 董晓晴

(北京市科学技术情报所,北京,100876)

摘要:本文综合应用主题搜索技术和深网信息集成技术,设计并实现了一个基于科普领域的主题深度搜索引擎。文中介绍了系统的体系结构、主题信息采集策略以及所使用的关键技术,并通过实验验证了网页分类器的高准确性,最后设计实验验证系统搜索效果并对相关工作进行了比较分析。

关键词:深网主题搜索引擎主题分类机器人网页分类器

一、引言

目前,针对某一领域的主题搜索引擎的研究已成为研究热点之一,超过50%的深网内容是特定于某个领域的,即面向某个领域,针对基于领域的深网信息集成技术的研究也成为当今信息检索领域研究的一个热点。本文所描述的科普深度搜索引擎正是上述两种技术结合于科普领域的产物。

二、系统结构

本文在传统的主题搜索引擎体系结构的基础上,加入了深网信息集成方案,研究并利用科普领域知识的特征,设计出科普深度搜索引擎的结构。

现对主要部分做简要说明:

(1)主题分类机器人:完成从web中采集科普领域信息并入库的工作;

(2)深网信息集成:协调调用相应机器人完成对指定深网网站的实时检索功能并将合并结果返回;

(3)索引器:完成对库中科普领域数据创建索引文件的工作;

(4)查询器:根据用户输入的查询条件查询索引文件并返回查询结果;

(5)用户接口:为用户提供综合的查询接口。

三、主题信息采集策略

本文研究分析了科普领域信息的特征,并根据这些特征,有针对性地设计主题信息采集策略。

1.科普领域信息特征分析

通过研究观察发现,科普领域信息在网络分布上和覆盖范围上有以下特征:

(1)网络分布上:科普领域信息多以块状分布于整个web中,其中每一个块多以独立的网站形式存在,少数块存在于大型网站的二级结构中,更少数的科普信息散落地存在于网络中。

(2)覆盖范围上:相较于其他主题信息如林业、农业以及医学等,科普领域信息覆盖范围较大,如天文、地理、生物、历史考古、IT等均属于科普领域。

针对上述特征分析,得出如下分析结果:

①科普领域信息的块状分布有利于我们对大部分信息的集中采集,目标是找到尽可能多的块,放弃少数散落的科普信息,这是对科普信息高效采集的一种考虑。

②基于领域的深网信息集成技术是科普领域信息搜索的可行思路。

③由于科普领域覆盖范围较宽,我们将科普主题进行了分解,将其分为天文主题、地理主题、生物主题、考古主题以及综合主题,分别提取各子类主题特征,综合所有细分主题的特征作为科普主题判断依据。

2.数据采集策略设计

根据上述分析,我们设计出两种科普数据采集方案:人工干预策略与先采集后过滤策略相结合的主题爬虫采集策略;科普领域深网信息集成方案。

(1)主题爬虫采集策略能够高效完成对大量科普领域信息的采集。策略描述如下:

①收集科普主题网站作为主题机器人爬行的种子urls并入库保存;

②机器人从库中读取一个url;

③机器人以读取到的url为起始链接,以宽度优先策略进行遍历;

遍历过程遵循规则:若待爬url为种子url域名内链接,则直接抓取此页面;否则,用网页分类器对此url页面进行分类过滤,若属于科普领域页面则抓取,否则放弃此url。

④循环上述②、③步骤。

(2)科普领域深网信息集成方案描述:首先,有针对性地选择查询效果好的科普网站,分别制作表单查询机器人;其次,设计调度机制。根据用户选择调用相应的表单查询机器人,由其填写表单进行实时深网信息采集。

四、关键技术

科普深度搜素引擎所使用的关键技术有主题爬虫技术、深网信息集成技术以及基于Lucene的索引机制,下面对这些技术进行详细分析。

1.主题分类机器人

科普深度搜索引擎的主题分类机器人通过站内网页判断和科普网页分类两种方式对网络信息进行过滤抓取,有较高的分类准确率和采集效率。

(1)机器人架构

机器人的制作基于工作流/组件技术的网页信息抽取系统VWIE来完成。利用VWIE的组件可扩展性,我们为其添加了分类器组件以及域名判断组件,用以实现具有页面过滤和站内页面判断功能的主题分类机器人的制作。

(2)分类器核心算法

SVM分类算法是目前分类效果非常好的一种文本分类算法,故本文系统分类器采用SVM分类算法。支持向量机理论(SVM)最初来源于数据分类问题的处理,简单地说,SVM就是要寻找一个满足要求的分割平面,使训练集中的点距离该平面尽可能地远,即寻求一个分割平面使其两侧的margin尽可能最大。一般分为线性可分和线性不可分两种情况讨论:

给定一组训练样本集(x1,y1),(x2,y2),…,(xi,yi),其中xi∈RN为N维向量,yi∈{-1,1}。

(3)分类器准确率实验

①分类训练样本设置

训练样本分为科普和非科普两类,我们对这两类进行了细分,尽可能多地将其划分为小类。

②实验结果

我们人工从目录网站及Google上共搜集到349个科普网站,随机从中选择50篇网页作为科普类网页,从新浪博客中人工选取50篇网页作为非科普类网页作实验数据。

实验结果表明:SVM分类器用于科普主题分类有较高的准确性。

2.深网信息集成

根据用户的选择协调调用相应机器人、机器人对用户选择的深网网站进行实时检索,最后合并机器人查询结果返回给用户接口。

(1)技术基础

系统深网信息集成的技术基础是基于网页结构分析的表单填写技术。

(2)集成框架

3.基于Lucene的检索机制

系统信息检索部分使用Lucene实现索引器和查询器功能,但Lucene中文分词并不十分理想,因此利用Lucene的可扩展性我们使用现在较为流行的开源中文分词庖丁解牛技术代替原有的分词。替换后效果明显,很大程度上优化了索引质量和查询效果。

索引器主要完成将切词形成的顺排档文档组织成倒排档索引数据。索引的建立即索引器的实现,主要分两步:首先构造一个Document的文档对象doc,其中包括描述数据域和正文数据域,这是因为只有符合Lucene.Document要求的文档才能使用Lucene对其建立索引。

同类推荐
  • 学校计算机实用技术

    学校计算机实用技术

    本书由杭州市上城区教育学院编著,他们邀请了众多信息技术教育教学的一线专家,认真细致地筛选了学校计算机应用方面的常见问题,提出了解决问题的具体操作方案,旨在帮助一线教育工作者解决可能面临的种种问题,为广大教师提供便捷服务。
  • 悟道:一位IT高管20年的职场心经

    悟道:一位IT高管20年的职场心经

    本书是一位有20多年职场经验的IT企业高管撰写的一系列有关职场悟道的短文集成,讲述的是在企业里如何修炼自己,如何摆平自己的心态,怎样做到“世事洞明”和“人情练达”,如何“搞定老板”,怎样做到工作和生活平衡等诸多话题,涉及到跳槽、转行、升迁、环境、沟通、老板、下属、老外等等。每一篇都以作者的亲身经历或者身边的故事说明道理,语言简洁流畅,妙趣横生,更有不少经典片段和发人深省的职场警句,读起来就像是一个睿智幽默的老朋友坐在你面前娓娓道来。
  • 中国3D打印的未来

    中国3D打印的未来

    自2012年以来,有关3D打印的报道屡见报端,这一新型制造技术引起了全世界的广泛关注。《中国3D打印的未来》作者、中国3D打印技术产业联盟秘书长罗军认为,中国从20世纪90年代初开始涉足3D打印技术,并取得了巨大进展,但与国外同行相比仍存在一定差距。特别是中国3D打印企业普遍存在“小而散”、各自为政的现象,如何发挥整合优势、抱团发展是目前亟需解决的问题。如果能够加强同行合作,抱团发展,形成合力,相信3D打印会成为唯一一项中国有可能赶超世界先进水平的技术。
  • 数据库原理及Oracle应用

    数据库原理及Oracle应用

    进入21世纪,随着国家信息化步伐的加快及各行业信息化进程的不断加速,社会对专业(非计算机专业)人才的信息技术能力要求越来越高。为了适应社会对专业人才的要求,全国各高校在重视专业知识培养的同时也非常注重计算机应用能力的训练,即信息技术能力的培养。计算机应用水平已成为衡量高校毕业生综合素质的突出标志之一。
  • 中国网络传播研究2009(第三辑)

    中国网络传播研究2009(第三辑)

    本文以传统社区研究的“场域论”为基础,探讨网络传播中场域性互动对社会舆论的影响。文章首先从传统社区传播的场域性特征出发,探讨网络传播的社区性和场域性。然后分别分析了传统门户、BBS论坛和私人博客等三种主流的网络传播的场域性互动、意见表达和舆论形成的特点。最后结合“张殊凡事件”、“王石捐款”事件以及“黑砖窑”事件,探讨网络传播中的场域性互动对社会舆论从虚拟到现实的影响。
热门推荐
  • 极道师者

    极道师者

    古有美人,皓腕卷轻纱,撩拨英雄少年水中有卧龙,横眉怒目,故步自封北方有山庄,青衣挂玉璧,檀郎谢女,比翼齐飞雪山下有痴人,欲踏破这天险,羽化登仙中海有极道者,拖刀而舞,会与天下英雄豪杰!路漫漫,极道哉?极道也。
  • 真神途

    真神途

    带着全宇宙唯一的一枚神格来到这个骑士为尊的世界,看看主角如何一步一步成为那至高无上的存在。(本书主角严谨冷酷,不脑残,不种马)
  • 潜航男神:深海择爱

    潜航男神:深海择爱

    傅暻这个名字一夜之间,被各大新闻报纸刊登,甚至连每天晚上如期而至的新闻联播都在播报他。他到底是何方神圣?一夕之间,多少中年妇女盯着自家屏幕上那英俊帅气的容颜,不禁概叹如果这是自家女婿该有多好!可就是这样一个集容貌与才气的男子居然爱上了“爱吃”又脾气不好的窦方孑期初她是他考核的老师,好像事事都是她掌握主动权。可后来.....第一次,深海三千米的潜航试验,因为窦方孑憋不住的那一泡......故而无奈返航。更令傅暻哭笑不得的是,她的机器人竟然将自己辛苦从深海取得的泥土标本糊在她脸上做面膜。好吧,他又得下去一次。在南海母船上,傅暻半夜起床见窦方孑打了个地铺睡在走廊上。她还有这个癖好?
  • 魔甲兵魂

    魔甲兵魂

    霍飞,一个原本在第二领域一座小城池里为生活挣扎奔波劳碌的少年,不知自己真实身份的‘孤儿’,却是因为偶得天地至宝魔甲兵魂,由此开启自己在第二领域里的传奇人生。成武者,筑强体,得秘宝,霍飞一步步开启自己传奇人生的同时,也由此拉开一场关于他自己绝密身世的领域风云,道武,佛武,魔武,霍飞将会为我们揭示一个怎么样的至尊领域。
  • 柠檬初心

    柠檬初心

    弟弟的车祸,让两人发生关系,她实在不能忍受在这里待下去,连夜到达伦敦。一年后,他们再次遇见,他低声下气地求她,却换来的是她是另一个人的女朋友。可他万万没想到,这个人虽说是她的青梅竹马,却不是她爱的人。他要给她一场完美的追求,而她却要爱上青梅竹马,虐心多角恋的故事就在这里发生。
  • 慢下来

    慢下来

    本书包括“心态慢下来”、“节奏慢下来”、“行走慢下来”、“感情慢下来”、“自由灵魂”、“一切随缘”、“简单生活”等章节。
  • 必懂的军事知识

    必懂的军事知识

    军事是一个国家和民族强大和稳定的象征,在国家生活中具有举足轻重的作用。国家兴亡,匹夫有责,全面而系统地掌握军事知识,是我们每一个人光荣的责任和义务,也是我们进行国防教育的主要内容。
  • 凤归于兮

    凤归于兮

    她是百国联盟第一杀手,天生异能,却迷蒙了双目,甘愿沦为杀人机器;她是炽天大陆第一美人,天赋卓绝,却是西岚第一废物。一朝穿越,当她成了她,杀伐果决,风华绝代……却不知,一切才刚刚开始。当年银发如雪,又迷蒙了谁的心……
  • 九星传记

    九星传记

    以武侠做类型,九星非九星,又何为九星。它有令人所追求的力量。但它的真正用途又是什么?_?让我们走进此中的世界来感受它的神秘。。。主角谭升带你来揭秘!
  • 撒旦缠情:丫头,你逃不了

    撒旦缠情:丫头,你逃不了

    本文商战、契约、滚床单三位一体求收藏求包养各种求~~~~~~【她是他的宿主,遇见即是劫数】起初她以他为天以他为地熟料她只是他指掌中的一颗棋子,无情地毁灭她的整个世界十八岁生日那天晚上,身体如破败的玩偶被压在他的身下让所有女人发疯的唇,贴在她的耳贝,炙热的呼吸喷薄:“生日快乐,我的雅雅。”他仍旧肆无忌惮地流连花丛,把她当做棋子使用无情地破了她的处子之身,掐着她的身子夜夜求欢当她捧着怀孕报告,满心欢喜地找到他,却换来一句:“你不过是她的影子,总是会腻的。”情人在怀,他优雅的笑,和煦如风,却冷酷无情。她心如死灰,远走异国三年后,携恨而归,却已牵手他人结婚典礼上却循环播放她的X照视频他笑如撒旦,在众目睽睽之下撕裂她的婚纱,声冷似冰:“纱雅,你想要离开我?问问你的身体同不同意!”PS:小二是亲妈,大虐伤心,小虐怡情,温情的虐。本文宠+虐,宠中有虐,虐中带宠简介无能,请直奔正文OTZ..