本文已被:浏览 1982次 下载 3018次
Received:August 06, 2009 Revised:September 15, 2009
Received:August 06, 2009 Revised:September 15, 2009
中文摘要: 针对目前文本分类中对向量空间模型的依赖以及文档频率(DF)特征提取方法在二值分类方面的不足,提出了基于差异频度的类别空间模型的二值分类方法,该方法突破了向量空间模型的限制,采用改进DF的差异频度方法进行特征提取,实现了二值分类功能。实验结果表明,改进的方法是有效的,其分类结果中精确率、召回率、F1测试值均有改善, 提高了分类的准确率。并且本文的方法在其他领域的二值分类中同样值得借鉴。
Abstract:As current text classification depends on vector space model and document frequency lacks binary class- ification, a method based on class space model of difference frequency is presented in this paper. The method breaks the constraint on vector space model, and selects feature with difference frequency improved on document frequency, thus realizes the function of binary Classification. The experiment shows that improved method is effective. Three evaluation parameters, including Precision, Recall and F1, are im- proved in classification result, and classification precision is better. In addition, the method is worth learning in binary Classification of other areas.
keywords: text classification difference frequency class space model vector space model binary classification
文章编号: 中图分类号: 文献标志码:
基金项目:广西自然科学基金 (0991071)
Author Name | Affiliation |
JIANG Hua | 桂林电子科技大学 计算机与控制学院 广西 桂林 541004 国家软件与电子电路公用平台广西分中心 广西 桂林 541004 |
LIU Tong-Lai | 桂林电子科技大学 计算机与控制学院 广西 桂林 541004 |
ZHANG Wan-Zhen | 桂林电子科技大学 计算机与控制学院 广西 桂林 541004 |
Author Name | Affiliation |
JIANG Hua | 桂林电子科技大学 计算机与控制学院 广西 桂林 541004 国家软件与电子电路公用平台广西分中心 广西 桂林 541004 |
LIU Tong-Lai | 桂林电子科技大学 计算机与控制学院 广西 桂林 541004 |
ZHANG Wan-Zhen | 桂林电子科技大学 计算机与控制学院 广西 桂林 541004 |
引用文本:
蒋华,刘同来,张万桢.基于差异频度的类别空间模型的二值分类.计算机系统应用,2010,19(4):81-84
JIANG Hua,LIU Tong-Lai,ZHANG Wan-Zhen.Binary Classification Based on Class Space Model of Difference Frequency.COMPUTER SYSTEMS APPLICATIONS,2010,19(4):81-84
蒋华,刘同来,张万桢.基于差异频度的类别空间模型的二值分类.计算机系统应用,2010,19(4):81-84
JIANG Hua,LIU Tong-Lai,ZHANG Wan-Zhen.Binary Classification Based on Class Space Model of Difference Frequency.COMPUTER SYSTEMS APPLICATIONS,2010,19(4):81-84