2. 贝尔法斯特女王大学 电子电气工程和计算机科学学院, 贝尔法斯特 BT9 5BN
2. School of Electronics, Electrical Engineering and Computer Science, Queen’s University Belfast, Belfast BT9 5BN, UK
近年来, 神经网络的发展十分迅速, 在不同领域的应用都取得了优异的表现. 众所周知, 数据对于神经网络是至关重要的. 然而和许多实验中所使用的数据集不同, 真实世界的数据通常是呈不平衡分布的, 尤其在一些异常检测的应用中, 比如医疗诊断、欺诈检测、入侵检测等, 这是因为异常事件相对于正常事件而言通常是罕见的. 类别不平衡问题早在20年前就已经得到人们的广泛关注[1,2], 在这种情况下, 数据集的不平衡分布会给大多数假设数据是相对平衡分布的机器学习算法带来严重的困难[3]. 比如在反向传播的神经网络中, 多数的类别样本往往会通过主导梯度向量来主导神经网络的训练过程, 即将类与类之间的边界由多数类推向少数类, 以减少分类误差. 这会导致神经网络在少数的类别样本上表现不佳.
针对不平衡数据集分类, 已经提出了许多相关的解决方法. 这些方法可以简单地分为3大类, 第1类是重加权, 其中包括代价敏感学习和分类器阈值调整, 目的都是为了在算法层面上给予少数类更大的权重. 代价敏感学习考虑了不同误分类情况的不同代价[4], 设置错误分类少数样本的代价大于错误分类多数样本的代价. 通过在训练期间调整不同类别的损失值来达到对类别进行重新平衡的目的. 相关的方法有Focal loss[5]、Class-balanced loss[6]等. 分类器阈值调整是从修正分类结果的角度出发, 通过调整阈值, 使得模型更关注少数类. 第2类是集成学习, 集成学习利用多个分类器, 通过各种投票机制获得最终结果, 从而提高单个分类器的准确性[7], 已经成功应用在不平衡数据集中[8], 并成为了类不平衡问题的一种流行的解决方法[9]. 第3类是重采样, 又可以细分为对少数类进行过采样、对多数类进行欠采样或者是两种方法结合使用, 目的是为了从数据层面上使不平衡数据集变得较为平衡. 其中, 随机采样是最简单的一种采样方法, 但是, 对少数类进行随机过采样, 容易造成少数类样本的过拟合; 对多数类进行随机欠采样, 又会损失多数类样本的相关特征信息. 于是, 有人提出基于数据生成的采样, 即对数据进行合成来增加相应类别的样本数量, 从而提升神经网络在不平衡数据集上的性能. SMOTE[10]就是一种合成少数样本的过采样技术, 通过随机选择少数样本附近的邻近点, 在两者之间的连线上随机选择一点作为新合成的少数类样本. Mixup[11]也是一种基于数据生成的过采样技术, 随机选择数据集中的两个样本, 将样本和样本标签分别进行混合.
有研究表明[12], Mixup在不平衡数据集上能够有效地提升网络的性能. 虽然Mixup从发表至今, 提出的变体层出不穷, 但其许多变体都是对平衡的数据集进行研究实验, 在不平衡数据集上的研究比较少, 其中较为熟知的有Remix[13]、Balanced-mixup[14]、Label-occurrence-balanced mixup[15].
本文提出一种新的不平衡数据集分类方法: 边界混合(Borderline-mixup), 它由两个边界采样器组合而成. 在边界采样器中, 我们不再盲目地选择样本进行混合, 而是找到位于边界附近的样本, 增加它们被采样的概率. 因为边界样本最容易被错误分类, 将混合的重点放在边界区域上可能会比放在整个少数类样本区域上有更好的表现. 我们使用4层的多层感知机对UCI数据集中的10个二分类以及4个多分类的不平衡数据集进行实验, 结果表明Borderline-mixup在提升模型性能方面是有效的. 除此之外, 我们还在基准的不平衡数据集CIFAR10-LT上进行了实验, 实验结果表明, 我们提出的Borderline-mixup相较于Mixup的性能最高能提升3.6%.
1 相关工作 1.1 重采样重采样一般分为过采样和欠采样, 最简单的一种采样方法就是随机采样. 对少数类进行随机过采样, 虽然扩大了数据集, 但是因为对少数类样本进行了多次复制, 容易造成过拟合. 而对多数类进行随机欠采样, 会丢弃一些样本, 即有可能损失部分有用信息.
针对随机过采样的问题, 有人提出, 过采样的时候不要只是简单地复制样本, 而是通过一些方法来生成新样本, 从而降低过拟合的风险, 比如通过SMOTE[10]方法, 对少数类进行合成新样本, 从而达到过采样的目的. 至于随机欠采样, 有人提出了依据信息的欠采样, 主要有两种方法: EasyEnsemble和BalanceCascade[16], 目的是克服随机欠采样中的信息丢失.
1.2 重加权重加权的主要思想就是根据类别样本的数量调整不同类别的权重, 以重新定义每个类别中样本的重要性, 从而达到对类别进行重新平衡的目的. 这里的权重可以是误分类的代价, 也可以是分类器的阈值.
调整误分类的代价的方法又称为代价敏感学习, 许多研究都提出了各种重新加权的方法来处理数据集不平衡的问题, 包括Focal loss[5]、Class-balanced loss[6]等.
调整分类器阈值也是一种重加权的方法. 有研究表明[17,18], 在数据集不平衡的情况下, 默认的分类阈值的实验结果永远不是最优的. 最优阈值通常是通过最大化某个评估指标(比如g-mean[18]、F1-score[19]等)或者是依据正类的先验概率来确定的.
1.3 集成学习集成学习是一种利用多种机器学习算法, 根据对数据提取的特征得出预测结果, 并用投票机制获得最终结果的方法. 有效地利用了每个算法的信息, 从而使得最终得到的模型具有更好的性能. 集成方法已经被广泛运用在数据集不平衡的问题中, 许多集成模型[20–22]被提出用于解决类不平衡问题.
1.4 采样方法常见的数据采样策略可以用式(1)来概括:
$ {p_j} = \frac{{n_j^q}}{{\displaystyle\sum\limits_{k = 1}^{{K}} {n_k^q} }} $ | (1) |
在数据集
Mixup是由Zhang等人[11]提出的一种正则化技术, 也是一种数据增强方法. 是为了提供神经网络的泛化能力而提出的. 其思想是随机选择数据集
$ \left\{\begin{gathered} \hat x = \lambda {x_i} + (1 - \lambda ){x_j} \\ \hat y = \lambda {y_i} + (1 - \lambda ){y_j} \\ \end{gathered}\right. $ | (2) |
其中,
Mixup对样本和标签使用的是相同的混合因子来混合特征空间和标签空间中的样本, 而Remix[13]给样本和标签提供不同的混合因子
$ \left\{\begin{gathered} \hat x = {\lambda _x}{x_i} + (1 - {\lambda _x}){x_j} \\ \hat y = {\lambda _y}{y_i} + (1 - {\lambda _y}){y_j} \\ \end{gathered}\right. $ | (3) |
其中:
$ {\lambda _y} = \left\{ \begin{gathered} 0, \;\;\;\quad {n_i}/{n_j} \geqslant \kappa \; {\rm{and}} \; {\lambda _x} < \tau \\ 1,\;\;\;\quad {n_i}/{n_j} \leqslant 1/\kappa \; {\rm{and}} \; 1 - {\lambda _x} < \tau \\ {\lambda _x}, \;\quad {\rm{otherwise}} \\ \end{gathered} \right. $ | (4) |
这里的
不同于Mixup使用两个基于实例的采样器来随机选择两个样本进行混合, Balanced-mixup[14]使用一个基于实例的采样器
$ \left\{\begin{gathered} \hat x = \lambda {x_I} + (1 - \lambda ){x_C} \\ \hat y = \lambda {y_I} + (1 - \lambda ){y_C} \\ \end{gathered}\right. $ | (5) |
和Balanced-mixup[14]类似, Label-occurrence-balanced mixup[15]使用了两个基于类别的采样器
$ \left\{\begin{gathered} \hat x = \lambda {x_{C1}} + (1 - \lambda ){x_{C2}} \\ \hat y = \lambda {y_{C1}} + (1 - \lambda ){y_{C2}} \\ \end{gathered} \right.$ | (6) |
为了方便起见, 后面我们用Label-mixup指代Label-occurrence-balanced mixup.
1.6 支持向量机支持向量机(support vector machine)是一种常见的二分类模型, 通过扩展可以实现多分类的任务. 它的目标是找到特征空间上的一个超平面, 不仅要使得两类数据分开, 而且各个类别的样本点中离这个超平面最近的点, 即支持向量, 到超平面的距离要最大化. 通过确定超平面来实现分类.
以二分类为例, 数据集
现有的边界混合方法大多都是将选取的边界样本和SMOTE方法结合使用, 文献[23]通过计算少数类中每个样本的k个最近邻样本中多数类样本的个数, 来确定该样本是否属于边界样本, 对取得的少数类的边界样本采取SMOTE方法进行过采样. 文献[24, 25]分别定义了区分边界样本与非边界样本的标准, 对满足标准的少数类样本, 使用SMOTE方法进行过采样, 对非边界中的多数类样本, 则进行欠采样, 从而达到重采样的目的. 这些研究确定边界样本的方法都是通过K-means算法选取样本的k个最近邻样本, 研究这些近邻样本和被选取样本之间的关系, 从而确定被选取样本是否为边界样本. 并且只对少数类的边界样本进行过采样, 对多数类的边界样本则不进行处理.
我们提出的方法使用SVM确定边界样本, 即支持向量, 相比于自定义边界样本的标准, 使用支持向量作为边界样本更加合理. 且对多数类和少数类的边界样本, 我们都增加了它们的采样概率, 并且我们设置少数类的边界样本的采样概率高于多数类的边界样本, 这样不仅区分了边界样本和非边界样本、少数类和多数类的重要程度, 也对多数类和少数类的边界样本一视同仁, 相对于它们的非边界样本, 均增加了相同倍数的采样概率. 重采样之后, 我们使用Mixup方法进行实验, 该方法和SMOTE方法的根本区别在于, SMOTE是在同一类别里进行数据合成, 即假设邻近样本共享相同的类, 而Mixup是随机组合, 不考虑类别, 即合成的数据可能属于同一类别, 也可能属于不同类别, 模拟了不同类别之间的邻近关系, 这给模型带来了更多的正则化好处.
2 Borderline-mixupMixup[11]思想是随机选择两个数据对, 得到这两个数据对的样本和标签对应凸组合, 来达到数据增强的目的. 这里可以理解为Mixup[11]是利用两个随机采样器来选择数据. 类似的, Balanced-mixup[14]是采用一个类平衡采样器和一个随机采样器来选择数据, 而Label-mixup[15]则是选用两个类平衡采样器来进行实验.
不管是随机采样器还是类平衡采样器, 其对于样本的选择都是一视同仁的, 即每个类的样本与样本之间, 都有着相同的被采样的概率. 而我们认为, 在分类任务中, 不应该对特征空间中的每个样本点都给予相等的重视. 那些能够帮助我们区分其他类别的样本点理应得到更多的重视.
2.1 边界采样在数据集不平衡问题中, 少数类样本可以分为两种: 本身数量并不少, 只是相对于多数类其占的比例较少, 即相对稀缺; 以及本身数量就是很少, 即绝对稀缺. 且有研究表明[26], 相对稀缺不一定会引起分类器的性能下降. 但是对于绝对稀缺的这种情况, 则需要研究人员尽可能地挖掘出少数类样本的有效信息.
对于少数类绝对稀缺的情况, 可以从类别之间的可分性出发, 如果类别之间的边界样本重叠较少, 即可分性较强, 那么类别不平衡并不会对分类器性能造成太大的影响. 从这个角度出发, 我们认为边界样本的重要性是要高于非边界样本的, 即边界样本理应得到更多的重视.
在选择边界样本的问题上, 我们受到了支持向量机的启发, 使用其选择边界样本, 即将超平面附近的支持向量作为边界样本, 赋予它们更高的采样概率, 用于后续实验.
研究表明, 特征空间中的最优分类超平面的权重可以表示为支持向量的线性组合[27], 这就说明, 最优超平面是独立于除支持向量之外的其他样本. 文献[26]表明, 支持向量机对类别不平衡问题不敏感, 因为它们的分类基于少量的支持向量, 并且大量的训练数据可以被认为是冗余的, 因此, 他们认为SVM是处理不平衡数据集的好选择. 这也在一定程度上证明了我们在不平衡分类中选择支持向量作为边界样本的合理性.
于是, 我们设计了一个边界采样器 , 具体构建过程如下: (1) 使用SVM对不平衡数据集进行分类, 根据每个类别的样本数量分别设置不同的惩罚参数, 其与类别的样本数量成反比. (2) 得到SVM中每个类的支持向量, 也就是边界样本, 将其保存下来, 用于后续操作. (3) 根据每个类的支持向量数、样本数对其进行采样概率的设计. 赋予支持向量更高的权重, 使得它们被采样的概率更大. 构建所得到的边界采样器可以用于后续的混合操作.
2.2 采样概率设计我们构建的边界采样器, 是在类平衡采样器的基础上进行改进, 赋予我们找到的边界样本更高的采样概率. 采样概率的设计, 除了类平衡这个条件之外, 我们还需要确定边界样本和非边界样本的比例, 比例确定好了之后, 就能够得出我们的采样概率.
我们在实验中尝试了几个不同的比例, 发现边界样本和非边界样本的采样概率比为3:1的时候, 实验所得的结果是最好的. 在文献[5]中, 作者在设置balanced cross entropy的正负样本的权重时, 也得出了和我们相同的结论, 只不过这篇文章讨论的是正负样本的权重比例, 而我们设置的是边界样本和非边界样本的采样概率比.
先以二分类为例, 假设
$ p\text=\left\{\begin{array}{l} \dfrac{1}{2(2{{\textit{z}}}_{1}+{n}_{1})}\text{, }多数类的非支持向量\\ \dfrac{1}{2(2{{\textit{z}}}_{2}+{n}_{2})}\text{, }少数类的非支持向量\\ \dfrac{3}{2(2{{\textit{z}}}_{1}+{n}_{1})}\text{, }多数类的支持向量\\ \dfrac{3}{2(2{{\textit{z}}}_{2}+{n}_{2})}\text{, }少数类的支持向量 \end{array}\right. $ | (7) |
可以看到, 我们设置的某一类的支持向量的采样概率是同类中非支持向量的3倍, 并且重新采样后多数类和少数类能够达到近似平衡的样本比.
扩展到
$ p\text=\left\{\begin{array}{l} \dfrac{1}{k}\times \dfrac{1}{2{{\textit{z}}}_{i}+{n}_{i}}, 第{i}类的非支持向量\\ \dfrac{3}{k}\times \dfrac{1}{2{{\textit{z}}}_{i}+{n}_{i}}, 第{i}类的支持向量\end{array} \right.$ | (8) |
我们对Mixup方法进行了改进, 不采用两个随机采样器对数据集进行采样构成凸组合, 而是使用两个边界采样器
$ \left\{\begin{gathered} \hat x = \lambda {x_{{\rm{B1}}}} + (1 - \lambda ){x_{{\rm{B2}}}} \\ \hat y = \lambda {y_{{\rm{B1}}}} + (1 - \lambda ){y_{{\rm{B2}}}} \\ \end{gathered}\right. $ | (9) |
其中,
我们把我们提出的方法称为Borderline-mixup.
3 实验我们在UCI机器学习数据库以及CIFAR10-LT的长尾数据集上评估了我们提出的方法. 其中我们选择的14个UCI数据集是本身就具有不平衡性质的数据集, 其不平衡的程度各不相同.
CIFAR10-LT 是根据文献[6,28]构建的CIFAR10的长尾版本. 即不同类别的样本数量呈指数衰减, 在不平衡分类中经常作为基准的数据集用于比较.
3.1 数据集 3.1.1 UCI机器学习数据库在二分类和多分类实验中, 我们分别使用了来自UCI机器学习知识库的10个二分类不平衡数据集和4个多分类不平衡数据集, 如表1和表2所示, 二分类任务中包括Spect[29]、Blood[30]、Yeast[31]、Abalone[32]、Ecoil[33]、Ionosphere[34]、Wilt[35]、Balance Scale[36]、Bank Marketing[37]、Fertility[38]数据集; 多分类任务中使用了Car Evaluation[39]、Avila[40]、Balance Scale[36]和Chess[41]数据集我们对原有数据集进行分层采样, 得到训练集、验证集、测试集, 分别占原有数据集的60%、20%、20%. 其中不平衡比例是在训练集上将多数类样本数除以少数类样本数得到的.
在二分类实验中, 对于多类数据集, 我们采取选用其中一类为正类, 其余类为负类的方法进行实验. 表1展示了用于二分类实验的10个数据集的相关信息, 表2展示了用于多分类实验的4个数据集的相关信息.
3.1.2 CIFAR10-LTCIFAR10-LT是由原始CIFAR10数据集, 在确定不平衡比例之后, 根据指数函数
不平衡比例
3.2 实验设置 3.2.1 UCI数据集分类实验设置
对于UCI数据集分类任务, 我们选择四层感知机进行实验, 隐藏层的节点设置为输入层和输出层节点之和的2/3, 设置
对CIFAR10长尾数据集的实验, 我们选择ResNet32作为主干网络, 采用随机梯度下降方法, 其中动量为0.9, 权重衰减为
对于不平衡数据集分类, 准确率不是一个很合理的评判标准, 所以在UCI二分类实验中, 我们选取
在二分类的混淆矩阵中,
$ recall = \frac{{TP}}{{TP + FN}} $ | (10) |
$ F1 {\text{-}} score = \frac{{2 \times precision \times recall}}{{precision + recall}} $ | (11) |
其中,
$ precision = \frac{{TP}}{{TP + FP}} $ | (12) |
$ g {\text{-}} mean = \sqrt {\frac{{TP}}{{TP + FN}} \times \frac{{TN}}{{TN + FP}}} $ | (13) |
对于CIFAR10长尾图像数据集分类, 我们遵循常用的设置, 对其测试集不做改变, 保持平衡, 然后采用准确率
$ accuracy = \frac{{TP + TN}}{{TP + FP + TN + FN}} $ | (14) |
实验选择ERM (经验风险最小化)、Mixup以及前面提到的Mixup的3个变体Remix、Balanced-mixup、Label-mixup作为对比方法.
3.4.1 UCI二分类实验结果分析二分类的实验结果如表4–表6所示, 第1列表示数据集的名称, 第1行表示使用的方法. 我们的方法在第1行中用加粗标明, 每个数据集的实验最优值也用加粗表示.
可以看到, 在这10个数据集中, 3个评估标准的实验结果都表明: 我们的方法在绝大多数情况下都是最优的.
在
由此可见, 我们的方法在二分类不平衡数据集上是有效的, 在极度不平衡的数据集上(例如实验中的Wilt数据集), 我们的方法所取得的性远远高于其他几种方法, 这足以说明边界采样策略的有效性.
3.4.2 UCI多分类实验结果分析
多分类的实验结果如表7–表9所示, 对于实验的4个不平衡数据集, 我们的方法Borderline-mixup在
在
这说明了对于有的极不平衡数据集, 我们的方法在比较
多分类的实验结果可以表明, 我们的方法不仅在二分类中是有效的, 在多分类中也能取得优异的结果. 这进一步证明了我们设计的边界采样策略的有效性.
3.4.3 CIFAR长尾数据集图像分类实验结果分析CIFAR10-LT数据集中, 测试集是保持不变, 即平衡的. 所以我们采用
可以看到, 在基准的图像长尾数据集CIFAR10-LT当中, 我们的方法是最优的. 在不平衡比例
本文提出了一种数据增强(扩充)方法: 边界混合(Borderline-mixup), 旨在于提高神经网络在不平衡数据集上的分类性能, Borderline-mixup的创新点在于, 它使用SVM先选择出边界样本, 依据我们给定的采样概率得到两个边界采样器的样本, 再对得到的样本进行混合. 该算法在不平衡的二分类和多分类数据集以及CIFAR10长尾数据集上都取得了优于Mixup及其相关变体的结果, 实验证明了我们提出的Borderline-mixup算法在处理不平衡数据集的有效性. 日后我们还需对边界样本的采集以及实验进行更深入研究和扩展.
[1] |
Japkowicz N. Learning from imbalanced data sets: A comparison of various strategies. Proceedings of the 2000 AAAI Workshop on Learning from Imbalanced Data Sets. Menlo Park: AAAI Press, 2000. 10–15.
|
[2] |
Chawla NV, Japkowicz N, Kotcz A. Editorial: Special issue on learning from imbalanced data sets. ACM SIGKDD Explorations Newsletter, 2004, 6(1): 1-6. DOI:10.1145/1007730.1007733 |
[3] |
Sun YM, Wong AKC, Kamel MS. Classification of imbalanced data: A review. International Journal of Pattern Recognition and Artificial Intelligence, 2009, 23(4): 687-719. DOI:10.1142/S0218001409007326 |
[4] |
Margineantu DD. Class probability estimation and cost-sensitive classification decisions. Proceedings of the 13th European Conference on Machine Learning. Helsinki: Springer, 2002. 270–281.
|
[5] |
Lin TY, Goyal P, Girshick R, et al. Focal loss for dense object detection. Proceedings of the 2017 IEEE International Conference on Computer Vision. Venice: IEEE, 2017. 2980–2988.
|
[6] |
Cui Y, Jia ML, Lin TY, et al. Class-balanced loss based on effective number of samples. Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019. 9268–9277.
|
[7] |
Dong XB, Yu ZW, Cao WM, et al. A survey on ensemble learning. Frontiers of Computer Science, 2020, 14(2): 241-258. DOI:10.1007/s11704-019-8208-z |
[8] |
Feng W, Huang WJ, Ren JC. Class imbalance ensemble learning based on the margin theory. Applied Sciences, 2018, 8(5): 815. DOI:10.3390/app8050815 |
[9] |
Guo HX, Li YJ, Shang J, et al. Learning from class-imbalanced data: Review of methods and applications. Expert Systems with Applications, 2017, 73: 220-239. DOI:10.1016/j.eswa.2016.12.035 |
[10] |
Chawla NV, Bowyer KW, Hall LO, et al. SMOTE: Synthetic minority over-sampling technique. Journal of Artificial Intelligence Research, 2002, 16: 321-357. DOI:10.1613/jair.953 |
[11] |
Zhang HY, Cissé M, Dauphin YN, et al. Mixup: Beyond empirical risk minimization. Proceedings of the 6th International Conference on Learning Representations. Vancouver: OpenReview.net, 2018.
|
[12] |
Zhang YS, Wei XS, Zhou BY, et al. Bag of tricks for long-tailed visual recognition with deep convolutional neural networks. Proceedings of the 35th AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2021. 3447–3455.
|
[13] |
Chou HP, Chang SC, Pan JY, et al. Remix: Rebalanced mixup. Proceedings of the 2020 European Conference on Computer Vision. Glasgow: Springer, 2020. 95–110.
|
[14] |
Galdran A, Carneiro G, González Ballester MA. Balanced-mixup for highly imbalanced medical image classification. Proceedings of the 24th International Conference on Medical Image Computing and Computer-assisted Intervention. Strasbourg: Springer, 2021. 323–333.
|
[15] |
Zhang SY, Chen C, Zhang XJ, et al. Label-occurrence-balanced mixup for long-tailed recognition. Proceedings of the 2022 IEEE International Conference on Acoustics, Speech and Signal Processing. Singapore: IEEE, 2022. 3224–3228.
|
[16] |
Liu XY, Wu JX, Zhou ZH. Exploratory undersampling for class-imbalance learning. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 2009, 39(2): 539-550. DOI:10.1109/TSMCB.2008.2007853 |
[17] |
Johnson JM, Khoshgoftaar TM. Deep learning and thresholding with class-imbalanced big data. Proceedings of the 18th IEEE International Conference on Machine Learning and Applications. Boca Raton: IEEE, 2019. 755–762.
|
[18] |
Johnson JM, Khoshgoftaar TM. Thresholding strategies for deep learning with highly imbalanced big data. Deep Learning Applications, Volume 2. Singapore: Springer, 2021. 199–227.
|
[19] |
Zou Q, Xie SF, Lin ZY, et al. Finding the best classification threshold in imbalanced classification. Big Data Research, 2016, 5: 2-8. DOI:10.1016/j.bdr.2015.12.001 |
[20] |
Galar M, Fernández A, Barrenechea E, et al. EUSBoost: Enhancing ensembles for highly imbalanced data-sets by evolutionary undersampling. Pattern Recognition, 2013, 46(12): 3460-3471. DOI:10.1016/j.patcog.2013.05.006 |
[21] |
Tama BA, Lim S. Ensemble learning for intrusion detection systems: A systematic mapping study and cross-benchmark evaluation. Computer Science Review, 2021, 39: 100357. DOI:10.1016/j.cosrev.2020.100357 |
[22] |
Kamalov F, Moussa S, Avante Reyes J. KDE-based ensemble learning for imbalanced data. Electronics, 2022, 11(17): 2703. DOI:10.3390/electronics11172703 |
[23] |
Han H, Wang WY, Mao BH. Borderline-SMOTE: A new over-sampling method in imbalanced data sets learning. Proceedings of the 2005 International Conference on Intelligent Computing. Hefei: Springer, 2005. 878–887.
|
[24] |
冯宏伟, 姚博, 高原, 等. 基于边界混合采样的非均衡数据处理算法. 控制与决策, 2017, 32(10): 1831-1836. DOI:10.13195/j.kzyjc.2016.1044 |
[25] |
侯贝贝, 刘三阳, 普事业. 基于边界混合重采样的非平衡数据分类方法. 计算机工程与应用, 2020, 56(1): 46-52. DOI:10.3778/j.issn.1002-8331.1901-0083 |
[26] |
Japkowicz N, Stephen S. The class imbalance problem: A systematic study. Intelligent Data Analysis, 2002, 6(5): 429-449. DOI:10.3233/IDA-2002-6504 |
[27] |
He Q, Xie ZX, Hu QH, et al. Neighborhood based sample and feature selection for SVM classification learning. Neurocomputing, 2011, 74(10): 1585-1594. DOI:10.1016/j.neucom.2011.01.019 |
[28] |
Cao K, Wei C, Gaidon A, et al. Learning imbalanced datasets with label-distribution-aware margin loss. Advances in Neural Information Processing Systems, 2019, 32.
|
[29] |
Cios K, Kurgan L, Goodenday L. Spect heart. UCI Machine Learning Repository, 2021.
|
[30] |
Yeh IC. Blood transfusion service center. UCI Machine Learning Repository, 2008.
|
[31] |
Nakai K. Yeast. UCI Machine Learning Repository, 1996.
|
[32] |
Nash W, Sellers T, Talbot S, et al. Abalone. UCI Machine Learning Repository, 1995.
|
[33] |
Nakai K. Ecoli. UCI Machine Learning Repository, 1996.
|
[34] |
Sigillito V, Wing S, Hutton L, et al. Ionosphere. UCI Machine Learning Repository, 1988.
|
[35] |
Johnson B. Wilt. UCI Machine Learning Repository, 2014.
|
[36] |
Siegler R. Balance scale. UCI Machine Learning Repository, 1994.
|
[37] |
Moro S, Rita P, Cortez P. Bank marketing. UCI Machine Learning Repository, 2012.
|
[38] |
Gil D, Girela J. Fertility. UCI Machine Learning Repository, 2013.
|
[39] |
Bohanec M. Car evaluation. UCI Machine Learning Repository, 1997.
|
[40] |
Stefano C, Fontanella F, Maniaci M, et al. Avila. UCI Machine Learning Repository, 2018.
|
[41] |
Bain M, Hoff A. Chess (king-rook vs. king). UCI Machine Learning Repository, 1994.
|
[42] |
Goyal P, Dollár P, Girshick R, et al. Accurate, large minibatch SGD: Training ImageNet in 1 hour. arXiv:1706.02677, 2017.
|