基于外部知识增强的远程监督关系抽取模型
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

国家自然科学基金面上项目(62076103);广东省基础与应用基础研究基金(2021A1515011171);广东省普通高校人工智能重点领域专项(2019KZDZX1033);广州市基础研究计划基础与应用基础研究项目(202102080282)


Distantly-supervised Relation Extraction Model via External Knowledge Enhancement
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    远程监督关系抽取方法旨在高效的构建大规模的监督语料并应用在关系抽取的任务上. 但是由于远程监督构建语料的方式, 带来了噪声标签和长尾分布两大问题. 本文提出了一种新颖的远程监督关系抽取模型架构, 与以往的基于管道的训练形式不同, 除了句子编码器模块, 新添加了外部知识增强模块. 通过对知识库中已存在的实体类型与关系进行预处理和编码, 为模型提供句包文本所没有的外部知识. 有利于缓解数据集中存在部分长尾关系示例不足所导致的信息不足的问题, 以及提升了模型对噪声示例的判别能力. 通过在基准数据集NYT和GDS上的大量实验, 相较于主流最优模型在AUC值上分别提升了0.9%和5.7%, 证明了外部知识增强模块的有效性.

    Abstract:

    The distantly-supervised relation extraction method aims to efficiently construct a large-scale supervised corpus and apply it to the task of relation extraction. However, constructing the corpus by distant supervision brings two major problems: noise labels and long tail distribution. In this study, a novel distantly-supervised relation extraction model is proposed. Unlike the previous pipeline-based training, an external knowledge enhancement module is added in addition to the sentence encoder module. By preprocessing and coding the existing entity types and relations in the knowledge base, the external knowledge that the sentence package text does not have is provided for the model. It is conducive to alleviating the problem of insufficient information caused by insufficient long tail relation instances in the data set and improving the discrimination ability of the model to noise instances. Through a large number of experiments on the benchmark data sets NYT and GDS, the AUC value has increased by 0.9% and 5.7% respectively, compared with the mainstream optimal model, which proves the effectiveness of the external knowledge enhancement module.

    参考文献
    相似文献
    引证文献
引用本文

曾碧卿,李砚龙,蔡剑.基于外部知识增强的远程监督关系抽取模型.计算机系统应用,2023,32(5):253-261

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2022-11-05
  • 最后修改日期:2023-01-06
  • 录用日期:
  • 在线发布日期: 2023-03-24
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号