基于语义的互联网药品信息抽取算法
DOI:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

基金项目:国家科技支撑项目(2006BAH02A05-06);国家自然科学基金(60903078, 60973025)


Web Medicine Information Extraction Algorithm Based on Semantics
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    针对现有互联网信息抽取技术存在准确率不高、覆盖率低、人工干预多等诸多缺陷,提出了一种新的互联网药品信息抽取算法,通过引入语义技术构建三维语义词典,屏蔽不同药品信息网页在内容和结构上的异构性,同时利用所需抽取的目标药品属性信息具有一定聚集度的特征,基于信息熵的理论设计出对目标信息智能定位和抽取的方法。实验证明该算法既能降低人工干预,又具备较高的准确率和召回率。应用该算法能实时自动全面准确地获取互联网药品信息,为政府药监部门提供丰富的监管依据,对规范医药电子商务市场,保证人们的用药安全具有重要的现实意义。

    Abstract:

    This article addresses defects of current Web information extraction technology such as low accuracy, low coverage, and manual intervention required, proposes a novel extraction algorithm of web medicine information. The algorithm sets up a three-dimentional semantic dictionary by introduction of the semantics technology, masks the isomerisms of the web page contents and structures, and at the same time, taking advantage of the fact that the attributes of the target medicine tend to have a character of aggregation, designs a way of intellectually locating and extracting the target information based on the theory of information entropy. Through related experiments proves that the algorithm is able to reduce the requirement of manual intervention of the information extraction, and has a high accuracy and recall rate. The application of this algorithm can automatically, comprehensively, and accurately obtain Internet medicine information in real time, offers abundant basis of supervision for the medicine supervision department, and therefore has a significant practical meaning of normalizing medical e-business and ensuring secure medication.

    参考文献
    相似文献
    引证文献
引用本文

沈元一,郑骁庆,顾轶灵.基于语义的互联网药品信息抽取算法.计算机系统应用,2011,20(1):41-47

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2010-04-24
  • 最后修改日期:2010-05-23
  • 录用日期:
  • 在线发布日期:
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号