基于多维语义的互联网药品信息提取方法
DOI:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:


Multidimensional-Semantics-Based Web Medicine Information Extraction
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    提出了基于多维语义的互联网药品信息提取方法,构建语义词典通过从多个维度对互联网药品知识进行描述,克服了不同来源网页之间的异构性并找出了其隐藏的共性。同时,采用了基于结构语义熵的方法对目标网页信息聚集区域进行定位,从中提取感兴趣的药品信息。最后再通过语义词典对提取的信息进行验证并自动生成XPath 提取规则进行补充。该方法能够自动有效地从互联网的多个信息来源获取药品信息,实验证明其具有较高的准确性与召回率,可以为政府相关部门加强互联网药品市场监管提供足够的信息依据。

    Abstract:

    A multidimensional-semantics based Web information extraction method is proposed in this article to extract medicine information on the Web. The method overcomes the heterogeneity of Web pages from different sources and finds the common characteristics among them by building up a semantic dictionary and describes the knowledge of medicine information over the Web. At the same time, it utilizes a structural-semantic-entropy-based approach to detect data-rich sections on Web pages, then extract information of interest from them and finally verify and supplement the extracted information by generating extraction rules using XPath. The method is able to obtain information from heterogeneous sources both automatically and effectively. Experiments shown that it has high precision and recall, thus can provide sufficient information for the government to enhance supervision of medicine market on the Web.

    参考文献
    相似文献
    引证文献
引用本文

顾轶灵.基于多维语义的互联网药品信息提取方法.计算机系统应用,2011,20(11):50-54,19

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2011-03-10
  • 最后修改日期:2011-04-18
  • 录用日期:
  • 在线发布日期:
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号