油气行业垂直搜索引擎关键问题解决方案
作者:
基金项目:

地理信息工程国家重点实验室基金项目(SKLGIE2017-M-4-6);国家自然科学基金青年基金项目(41701537);大学生创新项目(201810489071)


Critical Problems and Solutions for Vertical Search Engine in Oil and Gas Industry
Author:
  • 摘要
  • | |
  • 访问统计
  • |
  • 参考文献 [18]
  • |
  • 相似文献 [20]
  • | | |
  • 文章评论
    摘要:

    垂直搜索引擎构建是搜索领域的热点问题之一,应用领域广泛.现有的方法一般都只是对垂直搜索引擎构建中的某一个或几个阶段进行优化,且针对不同网站信息的获取往往需要人工配置操作,较为繁琐.本文在深入研究构建垂直搜索引擎技术的基础上,运用Heritrix、Solr等JAVA开源工具,结合网页正文抽取和完整性词抽取算法,提出了一套自动化构建垂直搜索引擎的方法,对该方法实现各阶段的关键问题展开了研究,并给出相应的优化方案.实践表明,提出的方法与优化方案具有较强的实用性.

    Abstract:

    Vertical search engine has always been a hotspot in the study of searching technique. Dispite a wide range of applications, the mainstream method of vertical search engine still has several flaws. In many cases, only a few stages have been optimized in the construction process of vertical search engine. Also, when obtaining information from websites, most of the methods require manual configuration, which is cumbersome. Based on an in-depth study of the vertical search engine technology, this article presents a method that uses JAVA open source tools such as Heritrix, Solr, combined with the extraction algorithm of web content and integrity word for automatically constructing a vertical search engine. In addition, the article examines the key issues in the various stages of the method's implementation and puts forward the corresponding optimization plan, which are examined to have strong practicality.

    参考文献
    [1] 泓淼. 网页信息智能采集与个性化服务系统的研究与实现[硕士学位论文]. 天津:河北工业大学, 2012.
    [2] De Bra P, Houben GJ, Kornatzky Y, et al. Information retrieval in distributed hypertexts. Proceedings of Intelligent Multimedia Information Retrieval Systems and Management. New York, NY, USA. 1994.
    [3] Chakrabarti S. Mining the Web:Discovering Knowledge from Hypertext Data. Morgan Kaufmann, 2003:73-74.[doi:10.1016/j.ipm.2005.06.002
    [4] Baeza-Yates R, Gionis A, Junqueira F, et al. The impact of caching on search engines. Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Amsterdam, The Netherlands. 2007. 183-190.
    [5] Castro HMM, Sosa VS, Maganda MAN. Automatic construction of vertical search tools for the deep web. IEEE Latin America Transactions, 2018, 16(2):574-584.[doi:10.1109/TLA.2018.8327415
    [6] 刘全志, 于治楼. 基于Heritrix和Jsoup的信息抽取系统的设计与实现. 山东师范大学学报(自然科学版), 2015, 30(2):16-19.[doi:10.3969/j.issn.1001-4748.2015.02.005
    [7] 张亚凤. 垂直搜索引擎中关键技术的研究[硕士学位论文]. 长春:长春工业大学, 2016.
    [8] 吴洁明, 冀单单, 韩云辉. 基于Web的DCI垂直搜索引擎的研究与设计. 计算机工程与设计, 2013, 34(4):1481-1487.[doi:10.3969/j.issn.1000-7024.2013.04.066
    [9] 张敏, 孙敏. 基于Heritrix限定爬虫的设计与实现. 计算机应用与软件, 2013, 30(4):33-35, 80.[doi:10.3969/j.issn.1000-386x.2013.04.010
    [10] 吴伟, 陈建峡. 基于Heritrix的Web信息抽取优化与实现. 湖北工业大学学报, 2012, 27(2):23-26.[doi:10.3969/j.issn.1003-4684.2012.02.007
    [11] 李晓明, 凤旺森. 两种对URL的散列效果很好的函数. 软件学报, 2004, 15(2):179-184
    [12] 孟庆浩, 王晶, 沈奇威. 基于Heritrix的增量式爬虫设计与实现. 电信技术, 2014, (9):97-101.[doi:10.3969/j.issn.1000-1247.2014.09.021
    [13] 严华云, 关佶红. Bloom Filter研究进展. 电信科学, 2010, 26(2):31-36.[doi:10.3969/j.issn.1000-0801.2010.02.008
    [14] 吴共庆, 胡骏, 李莉, 等. 基于标签路径特征融合的在线Web新闻内容抽取. 软件学报, 2016, 27(3):714-735.[doi:10.13328/j.cnki.jos.004868
    [15] 姜华, 韩安琪, 王美佳, 等. 基于改进编辑距离的字符串相似度求解算法. 计算机工程, 2014, 40(1):222-227.[doi:10.3969/j.issn.1000-3428.2014.01.047
    [16] Frantzi K, Ananiadou S, Mima H. Automatic recognition of multi-word terms:The C-value/NC-value method. International Journal on Digital Libraries, 2000, 3(2):115al lib.[doi:10.1007/s007999900023
    [17] 张勇. 中文术语自动抽取相关方法研究[硕士学位论文]. 武汉:华中师范大学, 2006.
    [18] 袁劲松, 张小明, 李舟军. 术语自动抽取方法研究综述. 计算机科学, 2015, 42(8):7-12.[doi:10.11896/j.issn.1002-137X.2015.8.002
    引证文献
    网友评论
    网友评论
    分享到微博
    发 布
引用本文

王督,蔡永香,李博涵,刘远刚.油气行业垂直搜索引擎关键问题解决方案.计算机系统应用,2018,27(12):18-24

复制
分享
文章指标
  • 点击次数:3763
  • 下载次数: 2403
  • HTML阅读次数: 1050
  • 引用次数: 0
历史
  • 收稿日期:2018-05-09
  • 最后修改日期:2018-06-04
  • 在线发布日期: 2018-12-05
文章二维码
您是第11121652位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号