基于门控图注意力网络的归纳式文本分类
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

国家自然科学基金(61772210)


Inductive Text Classification Based on Gated Graph Attention Network
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    为了有效地整合文本中的复杂特征和提取不同的上下文信息, 提出了基于门控图注意力网络的归纳式文本分类方法(TextIGAT). 该方法首先为语料库中的每个文档进行单独构图, 并将其中所有的单词作为图中的节点, 以此保留完整的文本序列. 文本图中设计单向连接的文档节点, 使词节点能与全局信息交互, 并合并不同的上下文关系连接词节点, 从而在单个文本图中引入更多的文本信息. 然后, 方法基于图注意力网络(GAT)和门控循环单元(GRU)来更新词节点的表示, 并根据图中保留的文本序列应用双向门控循环单元(Bi-GRU)来增强节点的顺序表示. TextIGAT能灵活地整合来自文本本身的信息, 因此能对包含新词和关系的文本进行归纳式学习. 在4个基准数据集(MR、Ohsumed、R8、R52)上的大量实验和详细分析表明了所提出的方法在文本分类任务上的有效性.

    Abstract:

    To effectively integrate complex features in text and extract different contextual information, this study proposes an inductive text classification method based on a gated graph attention network (TextIGAT). This method constructs a graph structure for each document in the corpus and takes all the words as nodes in the graph to preserve the complete text sequence. One-way connected document-level nodes are designed in the text graph, so that word nodes can interact with global information, and different contextual connection word nodes are merged to introduce more text information in a single text graph. Then, the representations of word nodes are updated utilizing a graph attention network (GAT) and a gated recurrent unit (GRU), and the sequential representation of nodes is enhanced by a bi-directional gated recurrent unit (Bi-GRU) according to the text sequence retained in the graph. TextIGAT can flexibly integrate information from text, which thus allows inductive learning on text with new words and relations. Extensive experiments on four benchmark datasets (MR, Ohsumed, R8, and R52) and detailed analysis prove the effectiveness of our proposed method on text classification.

    参考文献
    相似文献
    引证文献
引用本文

王晨曦,张莹祺.基于门控图注意力网络的归纳式文本分类.计算机系统应用,2022,31(9):201-209

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2021-12-16
  • 最后修改日期:2022-01-29
  • 录用日期:
  • 在线发布日期: 2022-06-17
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号