主题搜索引擎网络爬虫搜索策略的研究与实现
DOI:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:


Search Strategy and Achieve of the Topic Search Engine Spider
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    根据网络页面结构的特点,提出通过页面之间的主题传递来预测页面主题相关性的方法,解决了主题爬虫通道堵塞,抓取遗漏的问题。首先根据锚文本传递一个相关性信息值,如果锚文本给出的信息是相关,相关阈值就直接传递;如果是不相关,就乘以遗传基因比例之后传递。传递的过程中如果遇到相关的网页就恢复链接的相关性信息值到初始值。最后根据实验结果验证了算法的查全率与查准率,查全率有显著的提高。

    Abstract:

    According to the characteristics of the cyber page structure, this paper proposes the theme which predicts the correlativity by delivering the theme among the pages, and solves the problems of channel jamming and capture omission. Firstly, a correlative information value is delivered according to the anchor text. If the information given by the anchor text is correlated, the correlative threshold will be delivered directly. Otherwise, it will be multiplied by the genetic ratio before delivery. In the process of the delivery, correlative information value may be reset to the initial value if it encounters the correlative Web page. At last, the recall ratio is proven to be greatly improved based on the experimental result.

    参考文献
    相似文献
    引证文献
引用本文

刘淑梅,夏亮,许南山.主题搜索引擎网络爬虫搜索策略的研究与实现.计算机系统应用,2010,19(3):49-52

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2009-06-06
  • 最后修改日期:
  • 录用日期:
  • 在线发布日期:
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号