基于优势率的改进二元特征提取方法
DOI:
CSTR:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:


An Enhanced Odds Ratio Dualistic Feature Extraction Method
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    主题网络爬虫研究中一个重要问题是文本特征的提取,其好坏会直接影响主题特征的提取及网页的相关性计算。在研究了文本分类特征提取方法的基础上,分析优势率特征提取方法的优缺点,把频度、分散度作为判断要素加以考虑,提出一种改进的二元分类特征选择方法EOR,并使用得到的EOR值结合词频TF即TF-EOR来计算文档特征词的权重,应用于主题网络爬虫。仿真实验证明,EOR在中低维数下能提升文档分类准确率达5%,而TF-EOR权重计算方法好于TF-IDF方法,实验中提高了网络爬虫的抓取准确率和查全率达4%。

    Abstract:

    An important issue in topical crawler research is feature extraction, which makes great impact on topic description and page relevance scoring. The existing Odds Ratio method shows high performance on high dimension vectors, whereas it does not work well on low dimension condition. An enhanced method EOR based on Odds Ratio method, with word frequency and distribution rate taken into account, is proposed. The simulation shows a 5% increase on text categorization precision on low and middle feature dimension. Furthermore, by combining EOR score and TF value, namely, TF-EOR to calculate word weight and applying it to topical crawler, 4% increases on both precision and recall are obtained.

    参考文献
    相似文献
    引证文献
引用本文

杜一平,刘燕君.基于优势率的改进二元特征提取方法.计算机系统应用,2010,19(2):106-109

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2009-05-18
  • 最后修改日期:
  • 录用日期:
  • 在线发布日期:
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号