Borderline-mixup不平衡数据集分类方法
CSTR:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

国家自然科学基金(61976053, 62171131); 福建省自然科学基金(2022J01398)


Borderline-mixup Imbalanced Data Sets Classification Method
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    不平衡数据集问题从20年前就已经引起人们的重视, 提出的相关解决方法层出不穷. Mixup是这几年比较流行的数据合成方法, 其相关变体比比皆是, 但是针对不平衡数据集提出的Mixup变体寥寥无几. 本文针对不平衡数据集分类问题, 提出了Mixup的变体——Borderline-mixup, 其使用支持向量机选择边界样本, 增加边界样本在采样器中被采样的概率, 构建两个边界采样器, 替代了原有的随机采样器. 在14个UCI数据集以及CIFAR10长尾数据集上的实验结果表明, Borderline-mixup相比于Mixup在UCI数据集中都有提升, 最高能达到49.3%的提升, 在CIFAR10长尾数据集中, 也能达到3%–3.6%左右的提升. 显然, 我们提出的Mixup变体在不平衡数据集分类中是有效的.

    Abstract:

    The problem of imbalanced datasets has attracted people’s attention since two decades ago, and various solutions have been proposed. Mixup is a popular data synthesis method in recent years, with many variants extended. However, there are not many Mixup variants proposed for imbalanced datasets. This study proposes a Mixup variant, namely Borderline-mixup, to address the classification problem of imbalanced datasets, which uses a support vector machine (SVM) to select boundary samples and increases the probability that the boundary sample is sampled in the sampler. Two boundary samplers are constructed to replace the original random sampler. Extensive experiments have been conducted on 14 UCI datasets and CIFAR10 long-tail datasets. The results show that Borderline-mixup has outperformed Mixup consistently on UCI datasets by up to 49.3% and on CIFAR10 long-tail datasets by about 3%–3.6%. Therefore, the proposed Borderline-mixup is effective in the classification of imbalanced datasets.

    参考文献
    相似文献
    引证文献
引用本文

吴振煊,郭躬德,王晖. Borderline-mixup不平衡数据集分类方法.计算机系统应用,2023,32(11):73-82

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2023-04-30
  • 最后修改日期:2023-05-29
  • 录用日期:
  • 在线发布日期: 2023-09-15
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号