基于WEB挖掘的网络爬虫设计与实现
DOI:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:


Design and Realization of Web Crawlwer Based on Web Minning
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    从介绍Web挖掘与数据挖掘的差异入手, 分析Web挖掘中Web爬虫的必要性和现代Web挖掘技术的发展方向, 在深入了解Web爬虫的原理及其功能的基础上, 提出一个现代网站通用的挖掘模型, 并利用该模型设计一种网络爬虫. 经实例证明, 该爬虫能高效爬取更多的各种页面数据.

    Abstract:

    The diffeences between web-minning and data-mining were introduced in this paper firstly, then the necessity of Web crawler during web-minning and the development of modern web-minning technology were analysed. Based on the deep understanding of the principle and its function of Web crawler, a minning model popular in modern website was put forward, and a web crawler was designed by the use of this model. Tested by several examples, this kind of crawler can get more diversified pagedata efficiently.

    参考文献
    相似文献
    引证文献
引用本文

肖毅,张林,聂笑一.基于WEB挖掘的网络爬虫设计与实现.计算机系统应用,2013,22(9):60-63

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2013-03-04
  • 最后修改日期:2013-04-07
  • 录用日期:
  • 在线发布日期: 2013-10-10
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号