文章介绍一种网页聚类算法利用潜在语义分析LSA(Latent Semantic Analysis)降低词-文档矩阵的秩,在聚类分析中,采用概率潜在语义分析改善聚类精度。首先利用潜在语义分析对词-文档矩阵进行奇异值分解,达到降秩和去噪的目的;然后在聚类分析中,采用概率潜在语义分析设计文档相似度计算函数,实验结果表明该算法的有效性。
俞辉,赵玉国.基于LSA和PLSA的网页聚类算法研究.计算机系统应用,2008,17(4):65-68
京公网安备 11040202500063号