一种基于NMFSC的文本聚类方法
DOI:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:


Document Clustering Method Based on NMFSC
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    通过分析文本的特征,提出了一种基于稀疏约束非负矩阵分解(NMFSC)的文本聚类新方法.该方法用NMFSC分解词-文本矩阵来降低特征空间的维度,并依照稀疏约束更好地控制稀疏度,然后利用簇中文本的相似性进一步细化簇.实验表明,与基于k-means的文本聚类方法和基于NMF的文本聚类方法相比,此方法具有较高的归一化互信息值(NMI),从而具有良好的聚类性能.

    Abstract:

    Through analyzing the characteristics of the text, a novel text clustering approach based on Non-negative Matrix Factorization with sparseness constraint (NMFSC) is presented. The method uses NMFSC decomposing word-text matrix to reduce the dimension of the feature space, and better controls sparsity with sparseness constraint, and then further refines clusters by using the similarity of documents in clusters. Compared with text clustering method based on k-means and text clustering method based on NMF, the results of experiment show that the method has high value of the normalized mutual information, thus it has good clustering performance.

    参考文献
    相似文献
    引证文献
引用本文

王永贵,高月.一种基于NMFSC的文本聚类方法.计算机系统应用,2011,20(9):78-81,156

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2010-12-12
  • 最后修改日期:2011-04-10
  • 录用日期:
  • 在线发布日期:
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号