融合字位置特征的铁路事故命名实体识别
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

国家铁路集团有限公司科技研究开发重点课题(N2020S009)


Named Entity Recognition of Railway Accident Texts with Character Position Features
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 增强出版
  • |
  • 文章评论
    摘要:

    铁路事故的相关信息以事故概况文本的形式存在, 对于铁路安全工作有重要意义. 但由于缺乏有效的信息抽取手段, 导致分散在文本中的铁路事故知识没有得到充分的利用. 命名实体识别是信息抽取的重要子任务, 目前关于事故领域的命名实体识别问题研究较少. 针对铁路事故命名实体识别问题, 提出一种融合字位置特征的命名实体识别模型, 该模型通过全连接神经网络获取字的位置特征, 并与语义层面的字向量合并作为字的最终向量表示输入BiLSTM-CRF模型获取最优标签序列. 实验结果表明, 模型在铁路事故文本命名实体识别问题上的准确率、召回率和F1值分别为93.29%、94.77%和94.02%, 相比于传统模型, 取得了更好的效果, 为铁路事故知识图谱的构建奠定基础.

    Abstract:

    Relevant information of railway accidents, existing in the form of accident overview texts, is of great significance to railway safety work. However, due to the lack of effective information extraction methods, the knowledge of railway accidents scattered in the texts has not been fully utilized. Named entity recognition is an important subtask of information extraction, and there are few studies on named entity recognition of accidents. A named entity recognition model fused with character position features is proposed for the named entity recognition of railway accidents. The model obtains the character position features through a fully connected neural network. It merges them with the character vectors at the semantic level as the final vector representation of the characters, which is then input to the BiLSTM-CRF model to obtain the optimal label sequence. The experimental results show that the accuracy, recall, and F1 value of the model on the named entity recognition of railway accident texts are 93.29%, 94.77%, and 94.02% respectively. This model yields better effects than traditional models and lays a foundation for the construction of a railway accident knowledge graph.

    参考文献
    相似文献
    引证文献
引用本文

陈业明,戴齐,刘捷.融合字位置特征的铁路事故命名实体识别.计算机系统应用,2022,31(12):211-219

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2022-04-14
  • 最后修改日期:2022-05-22
  • 录用日期:
  • 在线发布日期: 2022-07-28
  • 出版日期:
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号