摘要:TensorGCN模型是图神经网络应用在文本分类领域的SOTA模型之一. 然而在处理文本语义信息方面, 该模型使用的LSTM难以完全地提取短文本语义特征, 且对复杂的语义处理效果不佳; 同时, 由于长文本中包含的语义及句法特征较多, 在进行图间异构信息共享时特征共享不完全, 影响文本分类的准确性. 针对这两个问题, 对TensorGCN模型进行改进, 提出融合BERT和自注意力机制的张量图卷积网络 (BTSGCN)文本分类方法. 首先, 使用BERT代替TensorGCN架构中的LSTM模块进行语义特征提取, 通过考虑给定单词两侧的周围单词来捕获单词之间的依赖关系, 更准确地提取短文本语义特征; 然后, 在图间传播时加入自注意力机制, 帮助模型更好地捕捉不同图之间的特征, 完成特征融合. 在MR、R8、R52和20NG这4个数据集上的实验结果表明BTSGCN相比于其他对比方法的分类准确度更高.