摘要:在针对短文本分类中文本特征稀疏难以提取、用词不规范导致OOV (out of vocabulary)等问题, 提出了基于FastText模型多通道嵌入词向量, 和GRU (gate recurrent unit)与多层感知机(multi-layer perceptron, MLP)混合网络结构(GRU-MLP hybrid network architecture, GM)的短文本分类模型GM-FastText. 该模型使用FastText模型以N-gram方式分别产生不同的嵌入词向量送入GRU层和MLP层获取短文本特征, 通过GRU对文本的特征提取和MLP层混合提取不同通道的文本特征, 最后映射到各个分类中. 多组对比实验结果表明: 与TextCNN、TextRNN方法对比, GM-FastText模型F1指标提升0.021和0.023, 准确率提升1.96和2.08个百分点; 与FastText, FastText-CNN, FastText-RNN等对比, GM-FastText模型F1指标提升0.006、0.014和0.016, 准确率提升0.42、1.06和1.41个百分点. 通过对比发现, 在FastText多通道词向量和GM混合结构网络的作用下, 多通道词向量在短文本分类中有更好的词向量表达且GM网络结构对多参数特征提取有更好的性能.