基于语义增强的短文本主题模型
CSTR:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

陕西省自然科学基金(2019JQ-849); 柯桥纺织产业创新项目(19KQYB23)


Short Text Topic Model Based on Semantic Enhancement
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    传统主题模型方法很大程度上依赖于词共现模式生成文档主题, 短文本由于缺乏足够的上下文信息导致的数据稀疏性成为传统主题模型在短文本上取得良好效果的瓶颈. 基于此, 本文提出一种基于语义增强的短文本主题模型, 算法将DMM (Dirichlet Multinomial Mixture)与词嵌入模型相结合, 通过训练全局词嵌入与局部词嵌入获得词的向量表示, 融合全局词嵌入向量与局部词嵌入向量计算词向量间的语义相关度, 并通过主题相关词权重进行词的语义增强计算. 实验表明, 本文提出的模型在主题一致性表示上更准确, 且提升了模型在短文本上的分类正确率.

    Abstract:

    Traditional topic models rely largely on word co-occurrence patterns to generate text topics. The data sparseness of short texts due to insufficient context has restrained traditional topic models from achieving good results with regard to short texts. On this basis, this study proposes a short text topic model based on semantic enhancement. The algorithm integrates the Dirichlet Multinomial Mixture (DMM) model with a word embedding model. It obtains the vector representation of words by training global word embedding and local word embedding and calculates the semantic correlation between word vectors with cosine similarity. Besides, it enhances the semantic meaning of words by calculating the weight of topic-related words. Experiments demonstrate the proposed model is more accurate in consistence of topic representation and improves the classification accuracy of the model in regard to short texts.

    参考文献
    相似文献
    引证文献
引用本文

高娟,张晓滨.基于语义增强的短文本主题模型.计算机系统应用,2021,30(6):141-147

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2020-10-05
  • 最后修改日期:2020-11-02
  • 录用日期:
  • 在线发布日期: 2021-06-05
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号