针对传统文本表示模型的不足以及文本向量的“高维诅咒”问题,本文提出一种基于频繁概念集的文本聚类方法(CFC)。该方法利用HowNet 将文本中的关键词映射为概念,然后使用Apriori 算法找出概念文本集中的频繁特征项,我们称之为频繁概念,最后利用CFC 算法实现文本聚类。实验表明,较传统的基于频繁特征项的同类方法,该方法能获得更好的聚类效果。
肖杰,黄汉永,张驹.一种基于频繁概念集的文本聚类方法.计算机系统应用,2009,18(5):81-84
京公网安备 11040202500063号