基于正则表达式的企业主页信息抽取①
DOI:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:


Enterprise Homepage Information Extraction Based on Regular Expression
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 增强出版
  • |
  • 文章评论
    摘要:

    主要分析了企业主页上描述企业基本信息表达语句的结构特点,提出了基于正则表达式的企业主页信息抽取的方法和技术,并设计开发了一个相应的原型系统对一些企业信息项进行抽取。实验结果表明,该系统可以有效地从企业主页上抽取企业相关信息,并得到较高的抽全率和抽准率。

    Abstract:

    The paper mainly analyses the structural characteristic of the sentences that describe enterprise basic information on enterprise homepage. It proposes the method and technique of enterprise homepage information extraction based on regular expression, and develops an archetype system to extract some enterprise information items. The experimental results show that it can extract enterprise-related information from enterprise homepage effectively and get a high recall and precision.

    参考文献
    相似文献
    引证文献
引用本文

靳小川,刘万军,赵雷.基于正则表达式的企业主页信息抽取①.计算机系统应用,2010,19(8):70-73

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2009-11-13
  • 最后修改日期:2009-12-20
  • 录用日期:
  • 在线发布日期:
  • 出版日期:
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号