基于遗传理论的改进数据过采样方法
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:


Improved Data Oversampling Method Based on Genetic Theory
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    针对数据分类预测模型的生成中, 高度不平衡的训练数据会大幅降低模型的性能, 本文提出了一种改进的基于遗传思想的不平衡数据集过采样方法, 该方法从生物染色体遗传理论中得到启发, 利用近亲生成相似而又不完全相同的新实例来平衡多数类, 在保证样本分布不变的前提下, 减弱甚至消除不平衡数据对训练结果的偏差影响. 最后, 通过在公共数据集上的对比实验表明, 该方法取得了更高的召回率及G-mean值, 证明此改进方法行之有效, 所生成模型的综合性能有所提高.

    Abstract:

    In the generation of data classification prediction models, highly unbalanced training data will significantly degrade the performance of the model. Therefore, this study proposes an improved oversampling method for unbalanced data sets based on genetic ideas. Inspired by the chromosome theory of inheritance in biology, this method uses close relatives to generate similar but not identical new instances to balance the majority of classes. Under the premise of the same sample distribution, the bias influence of unbalanced data on the training results is reduced or even eliminated. Finally, a comparative experiment on a public data set shows that the method has achieved a higher recall rate and G-mean value, which proves that the improved method is effective and the comprehensive performance of the generated model has been promoted.

    参考文献
    相似文献
    引证文献
引用本文

丁胜夺,赵刚,阎红巧,刘洪太.基于遗传理论的改进数据过采样方法.计算机系统应用,2022,31(2):185-190

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2021-04-06
  • 最后修改日期:2021-04-29
  • 录用日期:
  • 在线发布日期: 2022-01-28
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号