面向电力规章制度的命名实体识别
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

国家重点研发计划(2021YFE0102400)


Named Entity Identification for Electric Power Regulations
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    在电力生产的过程中, 往往会产生大量电力相关的文本数据, 但这些数据大多是非结构化数据且体量庞大繁杂, 实现对电力相关数据有效的组织管理可以促进电力企业实现数字资产商品化, 以此为电力企业发掘新的利润增长点. 本文针对将电力行业中的相关规章制度文本进行结构化处理这一问题, 提出了基于字符和二元词组特征的命名实体识别的模型. 在该模型中, 通过使用融合多特征的BERT预训练语言模型得到词嵌入表示, 并使用引入相对位置编码的Transformer模型和条件随机场作为编码层和解码层, 本文提出的模型在实体类型识别的准确率为92.64%, 取得了有效的识别效果.

    Abstract:

    In the process of power production, a large amount of power-related text data is often generated, and most of these data are unstructured and large in size. Thus, achieving effective organization and management of these data can promote power companies to produce digital asset products, which can help discover new profit growth points for power companies. Aiming at structuring the text of relevant regulations in the electric power industry, this study proposes a named entity recognition model based on the features of characters and binary phrases. In this model, the word embedding representation is obtained by using the BERT pre-trained language model fused with multiple features, and the Transformer model and conditional random field that introduce the relative position coding are used as the encoding layer and the decoding layer, respectively. The model proposed in this study is applied in entity type recognition, and it can achieve effective recognition with the accuracy of as high as 92.64%.

    参考文献
    相似文献
    引证文献
引用本文

陈鹏,蔡冰,何晓勇,金兆轩,金志刚,侯瑞.面向电力规章制度的命名实体识别.计算机系统应用,2022,31(6):210-216

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2021-09-07
  • 最后修改日期:2021-10-11
  • 录用日期:
  • 在线发布日期: 2022-05-26
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号