摘要:在文本分类任务中, 由于短文本具有特征稀疏, 用词不规范等特点, 传统的自然语言处理方法在短文本分类中具有局限性. 针对短文本的特点, 本文提出一种基于BERT (bidirectional encoder representations from Transformers)与GSDMM (collapsed Gibbs sampling algorithm for the Dirichlet multinomial mixture model)融合和聚类指导的短文本分类算法, 用以提高短文本分类有效性与准确性. 本算法一方面通过BERT与GSDMM融合模型将短文本转化为集成语义向量, 集成的向量体现了全局语义特征与主题特征, 解决了短文本特征稀疏与主题信息匮乏的问题. 另一方面在分类器前端训练中通过引入聚类指导算法实现对标注数据的扩展, 同时也提升了结果的可解释性. 最后利用扩展后的标注数据集训练分类器完成对短文本的自动化分类. 将电商平台的差评数据作为验证数据集, 在多组对比实验中验证了本算法在短文本分类方面应用的有效性与优势.