决策树分类算法中C4.5算法的研究与改进
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

福建省科技厅自然科学基金(2017J01406)


Research and Improvement of C4.5 Algorithm in Decision Tree Classification Algorithm
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 增强出版
  • |
  • 文章评论
    摘要:

    C4.5算法是用于生成决策树的一种经典算法,虽然其有很强的噪声处理能力,但当属性值缺失率高时,分类准确率会明显下降,而且该算法在构建决策树时,需要多次扫描、排序数据集、以及频繁调用对数,针对以上缺点,本文提出一种改进的分类算法.采用一种基于朴素贝叶斯定理方法,来处理空缺属性值,提高分类准确率.通过优化精简计算公式,在计算过程中,改进后的计算公式使用四则混合运算代替原来的对数运算,减少构建决策树的运行时间.为了验证该算法的性能,通过对UCI数据库中5个数据集进行实验,实验结果表明,改进后的算法极大的提高了运行效率.

    Abstract:

    C4.5 algorithm is a classical algorithm used to generate decision tree. Although it has strong noise processing ability, the classification accuracy of C4.5 algorithm decreases obviously when the missing rate of attribute value is high, and the algorithm needs to scan many times when constructing decision tree. This paper presents an improved classification algorithm for sorting data sets and calling logarithms frequently. A method based on naive Bayesian theorem is used to deal with the vacant attribute value and improve the classification accuracy. By optimizing and reducing the calculation formula, the improved formula uses four mixed operations to replace the original logarithmic operation, thus reducing the running time of constructing the decision tree. In order to verify the performance of the algorithm, five data sets in UCI database are tested. The experimental results show that the improved algorithm greatly improves the running efficiency.

    参考文献
    相似文献
    引证文献
引用本文

韩存鸽,叶球孙.决策树分类算法中C4.5算法的研究与改进.计算机系统应用,2019,28(6):198-202

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2018-12-23
  • 最后修改日期:2019-01-18
  • 录用日期:
  • 在线发布日期: 2019-05-28
  • 出版日期: 2019-06-15
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号