设为首页 |  加入收藏
首页首页 期刊简介 消息通知 编委会 电子期刊 投稿须知 广告合作 联系我们
利用Nutch设计实现生物医学信息垂直搜索引擎

Design and Implementation of Biomedical Information Vertical Search Engine using Nutch Software

作者: 王小磊  李立  赵东升 
单位:军事医学科学院卫生勤务与医学情报研究所(北京100850)
关键词: Nutch;网络信息抓取;Lucene;中文分词;增量抓取 
分类号:
出版年·卷·期(页码):2010·29·6(638-640)
摘要:

在网络的海量信息搜索过程中,医学情报研究和信息服务机构,经常需要构建面向专题的垂直搜索系统以满足特定人群的需求。本文利用Nutch和Lucene等开源软件设计了一个面向生物医学信息的垂直搜索引擎系统,并对网页信息抓取、格式处理、内容索引和检索等关键技术进行了说明。在此搜索引擎中,通过加入中文分词和增量抓取等模块,提高了中文关键字的识别率,缩短了信息的更新周期。目前该系统已经上线测试,能够获得较为精确和及时的搜索结果。

In the process of searching useful information from the massive information network,the vertical search system is often used by the information service organizations for medical information research and information service,to meet the specific needs. This paper uses open-source software Nutch and Lucene to design and implement a vertical search engine for biomedical information. Some key techniques such as crawling and processing of web page,content indexing and searching,are explained and discussed. The system  improves the recognition rate of Chinese keywords and reduces the information update cycle by adding Chinese word segmentation and re-crawl modules. Currently the system has been tested online and obtained more accurate and timely search results.

参考文献:

[1]李莉,魏进民.生物医学搜索引擎检索研究[J].科技情报开发与经济,2008,30(18):44-45.
[2]王仕仲,宁龙兵.基于Nutch的中文搜索引擎的研究与实现[J].电脑开发与应用,2009,22(7):76-79.
[3]王学松.Lucene+nutch搜索引擎开发[M].北京:人民邮电出版社,2008:63-384.
[4]吴宝贵,丁振国.基于Map/Reduce的分布式搜索引擎研究[J].现代图书情报技术,2007,154(8):52-55.
[5]赵文才.Nutch插件系统浅析[EB/OL].http://www.ibm.com/developerworks/cn/java/j-lo-nutchplugin/?S_TACT=105AGX52&S_CMP=tec-csdn.
[6]Page L,Brin S,Motwani R,et al.The PageRank Citation Ranking: Bringing Order to the Web.Standford Digital Library Technologies Project[EB/OL].[1998].http://www-db.stanford.edu/~backrub/pageranksub.ps.
[7]高飞,刘云.Nutch中文分词方法的实现[J].网络安全技术与应用,2008,(9):71-72.
 

服务与反馈:
文章下载】【加入收藏
提示:您还未登录,请登录!点此登录
 
友情链接  
地址:北京安定门外安贞医院内北京生物医学工程编辑部
电话:010-64456508  传真:010-64456661
电子邮箱:llbl910219@126.com