自动结构化数据的电商网站主题爬虫研究
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

广东省教育厅青年创新人才项目(自然科学)(2016KQNCX092)


Research on Theme Crawler of E-Commerce Website Based on Automatic Data Structuring
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 增强出版
  • |
  • 文章评论
    摘要:

    当前对于拥有海量数据的互联网,经常需要采集多个源站的结构化数据以用于数据分析、挖掘,而为不同网站定制数据采集程序的人工成本很高,本文提出了一种自动结构化网站数据的主题爬虫方案.以电商类网站为例,基于其具有统一层次结构、垂直领域拥有行业语料和规范的特点,从理论角度确定了结构化提取方案的可行性.提出相似重复检测和基于属性语义的标签匹配等算法,实现结构的分析和目标字段的匹配,并出于系统管理和调优的考虑,设计了预设匹配模板和结构分析结果复用机制.实际应用和错误率测试表明,本方案具有很强的可行性,能够大大减少人工编写的代码,错误率较低.设计思路可应用于其他领域的主题爬虫系统,快速获得多个站点的大量数据,将焦点更多地放在结构化数据的处理和信息挖掘.

    Abstract:

    The Internet has a huge amount of data, someone often need to acquire structural data of multiple source station to support data analysis, disinterment. The artificial cost of different customized website data acquisition program is very high. This paper presented a scheme of automatic data structuring in web crawler. Taking an e-commerce website as an example, this paper confirmed the feasibility of structured extraction scheme from the theoretical point of view based on its unified hierarchical structure, vertical domain, and data corpus. This study proposed the similar duplicate detection and attribute based semantic label matching algorithm, implemented analyzing the structure and matching the target fields, and designed a preset matching template and the reuse mechanism of structural analysis results, for management and tuning the system. Practical application and error rate test show that this scheme is very feasible and can greatly reduce artificial coding, and the error rate is low. The design idea can be applied to the subject crawler system in other fields, and quickly obtain large amount of data from many sites, and let people focus more on structured data processing and information disinterment.

    参考文献
    相似文献
    引证文献
引用本文

张倩,林安成,廖秀秀.自动结构化数据的电商网站主题爬虫研究.计算机系统应用,2018,27(7):90-95

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2017-10-26
  • 最后修改日期:2017-11-14
  • 录用日期:
  • 在线发布日期: 2018-06-27
  • 出版日期:
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号