利用概率主题模型的微博热点话题发现方法
DOI:
CSTR:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:


Microblog Hot Topics Discovery Method Based on Probabilistic Topic Model
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    微博具有长度短、实时传播、结构复杂以及变形词多等特点,传统的向量空间模型(VSM)文本表示方法和隐含语义分析(LSA)无法很好的对其进行建模.提出了一种基于概率潜在语义分析(pLSA)和K均值聚类(Kmeans)的二阶段聚类算法,此外通过定义微博热度分析和排序,有效地支持微博热点话题发现.实验表明,此方法能有效地进行话题聚类并检测出热点话题.

    Abstract:

    Microblog has the characteristic of short length, complex structure and words deformation. Therefore, traditional vector space model (VSM) and latent semantic analysis (LSA) are not suitable for modeling them. In this paper, a two stage clustering algorithm based on probabilistic latent semantic analysis (pLSA) and Kmeans clustering (Kmeans) is proposed. Besides, this paper also presents the definition of popularity and mechanism of sorting the topics. Experiments show that our method can effectively cluster topics and be applied to microblog hot topic detection.

    参考文献
    相似文献
    引证文献
引用本文

米文丽,孙曰昕.利用概率主题模型的微博热点话题发现方法.计算机系统应用,2014,23(8):163-167

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2013-12-18
  • 最后修改日期:2014-01-14
  • 录用日期:
  • 在线发布日期: 2014-08-18
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号