国家自然科学基金(69983007)
传统的TFIDF公式常被用于信息检索各种计算特征项权重的场合,但在文本分类任务下,TFIDF忽略了特征项的类别信息,且较易产生一些不合理的低频高权特征,一定程度上影响了最终分类的准确性。本文提出一种基于类别概念的TFCW特征选择方法,该方法避免了TFIDF的上述缺陷。实验表明该方法用于文本分类中优于目前常见的TFIDF改进算法。
杨奋强,刘玉贵.文本分类中基于类别概念的特征选择方法①.计算机系统应用,2009,18(10):93-96
京公网安备 11040202500063号