本文已被:浏览 1709次 下载 4048次
Received:January 13, 2009
Received:January 13, 2009
中文摘要: 传统的TFIDF公式常被用于信息检索各种计算特征项权重的场合,但在文本分类任务下,TFIDF忽略了特征项的类别信息,且较易产生一些不合理的低频高权特征,一定程度上影响了最终分类的准确性。本文提出一种基于类别概念的TFCW特征选择方法,该方法避免了TFIDF的上述缺陷。实验表明该方法用于文本分类中优于目前常见的TFIDF改进算法。
中文关键词: 文本分类 特征选择 TFCW 类别
Abstract:
keywords:
文章编号: 中图分类号: 文献标志码:
基金项目:国家自然科学基金(69983007)
Author Name | Affiliation |
杨奋强 | 中国科学院 研究生院 信息科学与工程学院 北京 100049 |
刘玉贵 |
Author Name | Affiliation |
杨奋强 | 中国科学院 研究生院 信息科学与工程学院 北京 100049 |
刘玉贵 |
引用文本:
杨奋强,刘玉贵.文本分类中基于类别概念的特征选择方法①.计算机系统应用,2009,18(10):93-96
.A New Feature Selection Method Based on Class-Concept in Text Categorization.COMPUTER SYSTEMS APPLICATIONS,2009,18(10):93-96
杨奋强,刘玉贵.文本分类中基于类别概念的特征选择方法①.计算机系统应用,2009,18(10):93-96
.A New Feature Selection Method Based on Class-Concept in Text Categorization.COMPUTER SYSTEMS APPLICATIONS,2009,18(10):93-96