基于能量和熵平衡转移的知识蒸馏

盛自强; 朱子奇

doi:10.15888/j.cnki.csa.009719

AI智能辅读

本章节主要描述了深度神经网络虽然在图像分类、目标检测、语义分割等任务中取得了显著成就，但其高昂的计算成本和内存占用限制了它们在资源受限设备上的部署。模型压缩技术，尤其是知识蒸馏（knowledge distillation, KD），因其高效性和易于实施而受到广泛关注。知识蒸馏通过将复杂教师模型的知识转移到轻量级学生模型中，使后者能够接近前者的性能水平。根据转移知识的类型，知识蒸馏可分为基于响应、基于特征和基于关系三类，其中基于logits的方法最为经典。该方法的损失函数由硬标签交叉熵损失和软标签KL散度损失组成，温度参数对软标签的光滑度有显著影响：较高的温度使标签更加平滑，而较低的温度则使其更为清晰。传统的知识蒸馏通常采用固定温度处理所有样本，这可能导致某些样本的知识转移不充分或过度软化。为了解决这一问题，CTKD引入了对抗学习模块以预测每个样本的最佳温度，从而适应不同样本的学习难度。本文还提出了一种基于能量函数的方法，通过将数据集分为低能量和高能量样本，并对两类样本分别应用不同的蒸馏温度，使低能量样本的分布更平滑而高能量样本的分布更清晰，有效调整非目标类预测。此外，针对学生模型在知识蒸馏过程中过度自信的问题，本文利用熵量化预测置信度，并提出熵重加权的知识蒸馏方法，通过教师逻辑的熵作为动态权重重新加权蒸馏损失，确保从复杂样本中学习更多的暗知识同时减少对显著特征的依赖。实验结果表明，上述方法在CIFAR-100和ImageNet数据集上有效提升了多种师生模型组合下的知识蒸馏性能。

1 相关工作

本章节主要描述了知识蒸馏的概念由Hinton等人于2015年提出，旨在通过教师网络向学生网络传递暗知识来提升后者性能。深度学习领域已发展出多种样本加权方法，如Ren等人的元学习算法动态分配训练样本权重以解决样本偏差和标签噪声问题；Lin等人引入焦点损失强调较难实例并降低易处理样本的损失权重，提高目标检测模型效能。Lu等人进一步将样本加权理念应用于知识蒸馏，在自然语言处理任务中采用元学习方法重新加权每个实例的损失项，但此过程可能计算量大且耗时较长。为此，本文提出熵重新加权KD作为高效替代方案，利用教师预测的熵值调整KD损失权重，实现简化和高效的蒸馏流程。此外，基于能量的机器学习模型从玻尔兹曼机发展而来，提供了一个涵盖概率与非概率学习方法的统一框架。Zhao等人展示了能量函数在训练GAN中的应用，Liu等人证明了非概率能量分数可用于评估OOD不确定性。在此基础上，本文提出的框架利用非概率能量值，在知识蒸馏过程中为不同能量水平的样本分配相应知识。

2 本文方法

本章节主要描述了一种基于能量分数的知识蒸馏方法 (EEKD)，旨在通过优化低能量样本和高能量样本的学习效果来提高学生模型从教师模型中获取知识的能力。该方法首先使用预训练的教师模型对输入图像进行分类，计算每个样本的能量分数，并根据能量分数将样本分为低能量样本和高能量样本。对于低能量样本，增加非目标类的重要暗知识的权重，通过提高温度来降低预测置信度；对于高能量样本，增强目标类的预测，通过降低温度来提高预测置信度。损失函数采用KL散度衡量学生模型和教师模型之间的软逻辑对齐程度，并结合熵值加权进一步优化蒸馏效果。具体实现步骤包括计算每个样本的能量分数、根据预定义的能量阈值进行分类、调整温度以及计算基于能量分数调整后的KD损失。该方法在处理不同复杂度的样本时表现出色，有助于减少过拟合和提升泛化能力。

3 实验分析

本章节主要描述了CIFAR-100和ImageNet (ILSVRC2012)两个数据集用于图像分类任务的研究。CIFAR-100包含50000张训练图和10000张测试图，由100个类别组成；ImageNet则是一个更大规模的数据集，包含128万张训练图片、50000张验证图片及100000张测试图片。实验基于Linux系统使用CUDA 10.2和PyTorch 1.9.0完成，涉及的网络模型有ResNet、VGG、ShuffleNet、MobileNet和Wide ResNet。对于CIFAR-100数据集，设置Batchsize为64，训练360个Epoch，学习率从0.1开始并在特定Epoch后逐渐衰减；ImageNet的设置则有所不同，Batchsize为256，训练150个Epoch，初始学习率为0.1并按计划衰减。本文方法在与逻辑KD和MLD结合时显示了显著的优势，不仅在同系列师生网络中提升0.2–0.6个百分点，在不同系列师生网络中也提升了0.2–0.7个百分点。ImageNet上的实验进一步验证了这些结果。此外，本文通过消融实验探讨了基于能量和熵蒸馏方法对模型性能的贡献，发现调整高能与低能样本温度比只调整一种更有效，而且使用

$T_{our}$ 能够准确反映教师网络感知到的样本难度。

4 结束语

本章节主要描述了为解决单一温度无法提取全部知识的问题，引入样本的能量得分，根据能量得分将数据集分为低能量和高能量样本，并对低能量样本应用较高温度，对高能量样本应用较低温度。此外，为了让学生更多地关注暗知识，通过熵重新加权能量蒸馏损失，利用教师软化逻辑的熵，在样本基础上重新加权蒸馏损失，确保更加平衡的知识转移。通过在同系列和不同系列教师网络与学生网络上的训练测试，模型的图像分类准确率都取得了不错的进步，证明了该方法的有效性和泛化性。

* 以上内容由AI自动生成，内容仅供参考。对于因使用本网站以上内容产生的相关后果，本网站不承担任何商业和法律责任

基于能量和熵平衡转移的知识蒸馏

doi: 10.15888/j.cnki.csa.009719

盛自强,
朱子奇^,

武汉科技大学计算机科学与技术学院, 武汉 430065

基金项目: 公安部科技计划(2022JSM08).

详细信息

通讯作者:
朱子奇, E-mail: 81029530@qq.com.

出版历程
- 收稿日期: 2024-05-29
- 录用日期: 2024-07-11
- 修回日期: 2024-06-26
- 网络出版日期: 2024-11-15

Knowledge Distillation Based on Energy and Entropy Balanced Transfer

SHENG Zi-Qiang,
ZHU Zi-Qi^,

School of Computer Science & Technology, Wuhan University of Science and Technology, Wuhan 430065, China

摘要

摘要: 知识蒸馏(KD)中的温度在以前的大多数工作中被设置为蒸馏过程的固定值. 然而, 重新研究温度时, 发现固定的温度限制了对每个样本中固有知识的利用. 本文根据能量得分将数据集分为低能量样本和高能量样本, 通过实验证实了低能量样本的置信度得分高, 表明其预测是确定的, 而高能量样本的置信度得分低, 意味着预测是不确定的. 为了通过调整非目标类预测来提取最佳的知识, 本文对低能量样本应用较高的温度以创建更平滑的分布, 并对高能量样本应用较低的温度以获得更清晰的分布. 此外, 为解决学生对突出特征的不平衡依赖和对暗知识的疏忽, 本文引入熵重加权的知识蒸馏, 这是利用教师预测中的熵在样本基础上重新加权能量蒸馏损失的方法. 本文方法可以很容易地应用于其他基于逻辑的知识蒸馏方法中, 并获得更好的性能, 可以更接近甚至优于基于特征的方法. 本文在图像分类数据集(CIFAR-100、ImageNet)上进行了广泛的实验, 证明了该方法的有效性.
- 知识蒸馏 /
- 能量 /
- 熵 /
- 暗知识 /
- 蒸馏温度
Abstract: The temperature in knowledge distillation (KD) is set as a fixed value during the distillation process in most previous work. However, when the temperature is reexamined, it is found that the fixed temperature restricts inherent knowledge utilization in each sample. This study divides the dataset into low-energy and high-energy samples based on energy scores. Through experiments, it is confirmed that the confidence score of low-energy samples is high, indicating that predictions are deterministic, while the confidence score of high-energy samples is low, indicating that predictions are uncertain. To extract the best knowledge by adjusting non-target class predictions, this study applies higher temperatures to low-energy samples to generate smoother distributions and applies lower temperatures to high-energy samples to obtain clearer distributions. In addition, to address the imbalanced dependence of students on prominent features and their neglect of dark knowledge, this study introduces entropy-reweighted knowledge distillation, which utilizes the entropy predicted by teachers to reweight the energy distillation loss on a sample basis. This method can be easily applied to other logic-based knowledge distillation methods and achieve better performance, which can be closer or even better than feature-based methods. This study conducts extensive experiments on image classification datasets (CIFAR-100, ImageNet) to validate the effectiveness of this method.
- knowledge distillation /
- energy /
- entropy /
- dark knowledge /
- distillation temperature

HTML全文

近年来, 深度神经网络在图像分类、目标检测、语义分割等任务中取得了巨大成功. 然而, 这些模型通常在计算上非常昂贵并且占用内存很高, 使得它们难以在资源受限的设备上部署. 因此, 模型压缩近年来受到了较大的关注与研究. 其中, 知识蒸馏 (knowledge distillation)^[1]以其优越的性能和易于实现的特点脱颖而出, 其通过从复杂的教师模型中提取有意义的信息来训练轻量级的学生模型, 使学生模型能够达到与教师模型相似的性能.

知识蒸馏根据转移知识的类型可以分为基于响应^[2–4]、基于特征^[5–9]、基于关系^[10]这3类. 基于logits的知识蒸馏是最经典的方法, 知识蒸馏的损失函数通常由两部分组成: 具有硬标签的交叉熵(CE)损失和带有软标签的KL散度损失. 其中温度对软标签的光滑度有很大的影响, 较高的温度使软标签更光滑, 较小的温度使其柔软标签更清晰. 此外使用温度软化logits输出也是获取更多“暗知识”的重要步骤. 通常教师模型的输出过于敏锐, 使学生模型难以学习不正确的类之间的细微差别. 因此, 经常使用由“温度”调节的软标签来提高知识蒸馏的性能. 然而, 以往的大部分工作, 无论各种logits输出如何分布, 都将温度设定为一个固定的值, 这将会阻碍知识蒸馏的过程. 如图1所示, 当使用固定的温度将会出现软化不均匀的现象. 对于第1个样本, 它有一个接近ground truth标签的自信预测, 它的软标签包含不充分的“暗知识”, 因为固定的温度对该样本来说太小了. 第3个样本则是缺乏自信, 它的最终预测过于接近, 该样本的固定温度明显过大. 因此, 可以发现一个温度没有能力适当的软化所有样本的logits输出.

图 1 不同样本在固定温度和基于能量得分调整后的温度下的最终预测示意图

下载: 全尺寸图片

CTKD^[11]采用对抗学习模块来预测样本温度, 以适应不同样本的难度. 本文提出了一种新的基于逻辑的蒸馏方法, 该方法通过最大化学生对教师知识的利用, 显著提高其成绩, 并且可以很容易地集成到现有的基于逻辑的蒸馏中. 本文方法对每张图像应用能量函数将整个数据集分为低能量和高能量样本, 然后对分离的样本进行不同温度蒸馏, 低能量样本采用高温, 高能量样本采用低温. 该方法可以使低能量样本的样本分布更平滑, 高能量样本分布更清晰, 有效的调整非目标类预测, 如图1所示.

尽管KD通过KL散度来最小化学生模型的预测和教师模型的预测, 但学生模型与老师模型之间仍有着显著的差距, 这归因于学生过度自信的预测. 为了研究此问题, 本文使用了熵, 这是信息论中的一个概念, 用于量化随机变量的不可预测性, 来测量预测的置信度. 通过实验得出KD学生在较低的熵下产生了更大的确定性预测, 这种过度自信意味着对显著特征的过度依赖, 潜在地忽略了复杂的暗知识. 因此, 本文提出熵重加权知识蒸馏, 该方法与焦点损失中的加权方法类似, 利用教师逻辑的熵作为蒸馏损失的动态权重. 本文的方法引入了对KD的样本智能适应性, 其中具有高熵的挑战性样本在训练中得到更大的重视, 而具有低熵简单的样本则被降低权重. 因此, 不仅鼓励学生从困难的样本中学习复杂的暗知识, 而且减少对突出知识的依赖. 本文的主要贡献如下.

1)为了解决恒定温度限制了对每个样本中固有知识的利用, 本文提出根据能量得分将数据集分为低能量样本和高能量样本, 对低能量样本应用较高的温度来创建更平滑的分布, 并对高能量样本应用较低的温度以获得更清晰的分布.

2)为了进一步解决学生对突出特征的不平衡依赖和对暗知识的疏忽, 本文引入了熵重加权的知识蒸馏的方法, 利用教师软化逻辑的熵, 在样本基础上重新加权蒸馏损失, 确保更加平衡的知识转移.

3) 通过在CIFAR-100和ImageNet上对多种师生模型进行广泛的实验, 本文的方法可以很好地与DKD^[2]和MLD^[4]基于逻辑的方法相结合, 有效地提高了蒸馏性能.

1. 相关工作

知识蒸馏这一概念最早由Hinton等人^[1]于2015年提出, 旨在通过将复杂的教师网络中提取的暗知识迁移到轻量级的学生网络中来提高学生网络的性能.

1.1 样本加权

在深度学习中, 已经提出了很多种样本加权方法, Ren等人^[12]通过元学习算法动态地为训练样本分配权重, 来解决样本偏差和标签噪声. 类似的, Lin等人^[13]引入焦点损失来强调较难地实例, 同时降低较容易样本的损失权重, 从而提高目标检测模型的性能.

Lu等人^[14]将样本加权扩展到知识蒸馏, 在自然语言处理任务中使用样本重新加权, 由于之前的工作强调了样本知识的重要性^[15,16], 该方法利用元学习方法为每个实例重新加权损失项, 从而改进了蒸馏过程. 然而, 元学习的训练可能需要大量的计算和时间, 本文的熵重新加权KD提供了一种效率高的替代方案, 通过教师预测的熵来重新加权KD损失, 确保简化和有效的知识转移过程.

1.2 基于能量的学习

基于能量的机器学习模型有着悠久的历史, 其始于玻尔兹曼机^[17], 这是整个网络中具有相关能量的单元网络. 基于能量的学习^[18]为各种概率和非概率学习方法提供了一个统一的框架. Zhao等人^[19]展示了利用能量函数来训练生成对抗网络(GAN), 其中鉴别器利用能量值来区分真实图像和生成图像. Liu等人^[20]证明了非概率能量分数可以直接用于评估out-of-distribution (OOD)不确定性的分数函数中. 在这些工作的基础上, 本文提出的框架将非概率能量值的使用扩展到知识蒸馏中, 为低能量和高能量样本提供不同的知识.

2. 本文方法

2.1 基于能量的模型

基于能量的模型(EBM)^[21]的本质是建立一个函数 $E(x):{R^D} \to R$ , 该函数将输入空间的每个点x映射为一个能量的非概率标量. 一个能量值的集合可以通过Gibbs分布转化为一个概率 $p(x)$ :

$p(y\mid {{x}}) = \frac{{{{\mathrm{e}}^{ - E({{x}}, y)/T}}}}{{\int_{{y^\prime }} {{{\mathrm{e}}^{ - E\left( {{{x}}, {y^\prime }} \right)/T}}} }} = \frac{{{{\mathrm{e}}^{ - E({{x}}, y)/T}}}}{{{{\mathrm{e}}^{ - E({{x}})/T}}}}$

(1)

而拥有更深层次规模架构的网络会取得更好的表现, 因此会选取一个庞大的教师网络, 这也就导致了教师网络和学生网络规模相差较大. 在这种差距下, 使用传统的KL散度来精确的恢复预测变得更为乏力.

式(1)中分母 $\int_{{y^\prime }} {{{\mathrm{e}}^{ - E\left( {{{x}}, {y^\prime }} \right)/T}}}$ 为配分函数, $T$ 是温度参数. 数据点 $x \in {R^D}$ 的亥姆霍兹自由能 $E(x)$ 可以表示为对数配分函数的负数:

$E({{x}}) = - T \cdot \log \int_{{y^\prime }} {{{\mathrm{e}}^{ - E\left( {{{x}}, {y^\prime }} \right)/T}}}$

(2)

考虑一个判别神经网络分类器 $f(x):{R^D} \to {R^K}$ , 它将输入 $x \in {R^D}$ 映射到 $K$ 个logits的实数上:

$p(y\mid {{x}}) = \frac{{{{\mathrm{e}}^{{f_y}({{x}})/T}}}}{{\displaystyle\sum\limits_i^K {{{\mathrm{e}}^{{f_i}({{x}})/T}}} }}$

(3)

其中, ${f_y}(x)$ 表示 $f(x)$ 的第 $y$ 个类标号的logits. 通过连接式(1)和式(3)可以定义给定输入 $(x, y)$ 的能量为 $E(x, y) = - {f_y}(x)$ , 在不改变神经网络 $f(x)$ 参数的情况下, 自由能函数表示:

$E({{x}};f) = - T \cdot \log \sum\limits_i^K {{{\mathrm{e}}^{{f_i}({{x}})/T}}}$

(4)

根据能量分数分类的动机, 可以将低似然的输入数据视为高能样本. 这可以通过利用基于能量的模型的表示的数据密度函数 ${{p(x)}}$ 来实现^[22].

$p({{x}}) = \frac{{{{\mathrm{e}}^{ - E({{x}};f)/{T^{}}}}}}{{\int_{{x}} {{{\mathrm{e}}^{ - E({{x}};f)/T}}} }}$

(5)

通过式(5)可以得到:

$\log p({{x}}) = - \frac{{E({{x}};f)}}{{{T^{}}}} - C$

(6)

式(6)表明能量函数与对数似然函数成正比. 也就是说能量较低的样本可以很容易地被发现与识别, 但能量较高的样本却不容易被识别. 因此可以有效地利用能量函数的可区分性对样本进行分类, 从而促进知识的最优蒸馏.

2.2 基于能量的知识蒸馏

利用上述的能量分数, 本文提出了一种基于能量的知识蒸馏. 具体来说, 使用式(4)通过预训练的教师模型的logits获取每个样本的能量分数, 再根据图像的能量分数将其分为低能量和高能量组, 并对每一组应用不同的温度缩放, 从而增强学生模型的学习能力.

知识蒸馏的目标是将封装在教师模型软概率输出中的暗知识转移到学生模型中. 在分类任务中, 软化概率是通过温度缩放的Softmax函数计算的, 由式(7)进行计算:

${p_i}(T) = \frac{{\exp \left( {\dfrac{{{y_i}}}{T}} \right)}}{{\displaystyle\sum\limits_{}^{} {_{j = 1}^C\exp } \left( {\dfrac{{{{{y}}_i}}}{T}} \right)}}$

(7)

其中, ${p_i}(T)$ 是第i类经过温度超参数 $T$ 软化后的概率输出, ${y_i}$ 表示第i类的logits, C为类的总数.

知识蒸馏的核心思想在于最小化损失函数, 使师生的软逻辑对齐. KD的损失为:

${L_{{\text{KD}}}} = {T^2}{L_{{\mathrm{KL}}}}\left( {\sigma \left( {{Z_S}/T} \right), \sigma \left( {{Z_T}/T} \right)} \right)$

(8)

其中, ${Z_S}$ , ${Z_T}$ 分别为学生和教师输出的logits, $\sigma$ 为Softmax函数. 本文根据能量分数调整预测的置信度, 使学生获得更广泛的知识, 该调整可以通过简单的缩放温度来实现, 如下所示:

${L_{{\mathrm{our}}}} = {T^2_{{\mathrm{our}}}}{L_{KL}}\left( {\sigma \left( {{Z_S}/{T_{{\mathrm{our}}}}} \right), \sigma \left( {{Z_T}/{T_{{\mathrm{our}}}}} \right)} \right)$

(9)

${E_e} = E(x;{Z_T})$

(10)

${{{T}}_{{\mathrm{our}}}}=\left\{ {\begin{array}{*{20}{l}} T + {T_{( + )}}, &{\text{ }}{E_e} \leqslant E_e^{{\mathrm{low}}} = {E_e}\left[ {N \cdot r} \right] \\ T + {T_{( - )}}, & {\text{ }}{E_e} \geqslant E_e^{{\mathrm{high}}} = {E_e}\left[ { - N \cdot r} \right] \\ T,& {\text{other}} \end{array}} \right.$

(11)

其中, $x$ 是输入的图像, 每个样本的能量分数都可以使用教师分类器 ${Z_T}$ 计算, 这样可以得到所有图像的能量分数, 并将它们按升序排列. $E_e^{{\mathrm{low}}}$ 和 $E_e^{{\mathrm{high}}}$ 是定义低能量和高能量分类范围的常数值. ${T_{( + )}}$ 和 ${T_{( - )}}$ 分别为一个正整数和负整数, 用来增加和降低温度. $N$ 为训练样本的总数, 并使用总样本的百分比 $r$ 来建立能量分类范围, 如图2所示.

图 2 样本的能量分布

下载: 全尺寸图片

该方法可以增加低能量样本中非目标类的重要暗知识, 同时增加高能样本中目标类的预测.

2.3 基于熵加权的知识蒸馏

在知识蒸馏中, 不同样本会有不同程度的挑战, 学生可能会去学习较多的简单的样本, 使其产生过度自信, 从而对较难暗知识的学习减少. 因此, 本文通过教师对每个样本挑战性的见解, 去指导学生, 减少学生的过度自信.

在信息论中, 熵是对不确定性的度量^[23]. 本文将熵作为评估样本难度的指标, 引导学生更多的关注具有挑战的样本. 具体来说, 老师的软化概率预测的熵提供了对每个样本的挑战性的见解, 通过式(12)计算:

$H_n^\mathcal{T} = - \sum\limits_{i = 1}^C {p_{n, i}^\mathcal{T}} \left( {{T_{{\text{our}}}}} \right)\log \left( {p_{n, i}^\mathcal{T}\left( {{T_{{\text{our}}}}} \right)} \right)$

(12)

其中, $H_n^\mathcal{T}$ 为教师 $\mathcal{T}$ 预测的第 $n$ 个样本logits的熵, $p_{n, i}^\mathcal{T}\left( {{T_{{\text{our}}}}} \right)$ 为样本n的第 $i$ 个类别的概率, 用式(11)中的温度 ${T_{{\text{our}}}}$ 来软化, 来确定它们准确地反映了教师对每个样本所感知到的难度. 本文提出的熵加权能量的损失函数为:

${L_{{\mathrm{EEKD}}}} = \frac{1}{N}\sum\limits_{n = 1}^N {H_n^\mathcal{T}} {L_{{\text{our}}, n}}$

(13)

其中, ${L_{{\text{our}}, n}}$ 表示第n个样本计算的能量KD损失, n表示数据集中的样本总数, 熵值 $H_n^\mathcal{T}$ 作为调节 ${L_{{\text{our}}, n}}$ 的动态加权因子. 因此, 该加权方法放大了教师认为具有挑战性的样本的蒸馏损失, 同时减少了简单实例的蒸馏损失. 本文提出的EEKD如图3所示, 算法1中提供了类似PyTorch风格的伪代码.

图 3 EEKD 架构图

下载: 全尺寸图片

算法1. EEKD算法

# x: 输入的图片

# model_s, model_t: 学生和教师的模型

# T: 温度超参数

# T_our: 本文的温度超参数

# E_high, E_low: 高能量阈值和低能量阈值

# E(): 能量函数

y_t=model_t(x) #教师输出的logits

y_s=model_s(x) #学生输出的logits

E_t=E(y_t) #教师logits的能量值

for i, E_i in enumerate(E_t):

　if E_i<E_low #低能量样本

　　T_our[i]=T[i]+T_(+)

　if E_i>E_high #高能量样本

　　T_our[i]=T[i]+T_(–)

p_t=F.Softmax(y_t/T_our, dim=1) #教师的预测

p_s=F.Softmax(y_s/T_our, dim=1) #学生的预测

L_our=(T_our)²×F.kl_div(p_s, p_t) #基于能量的KD损失

_p_t=F.Softmax(y_t/T_our, dim=1)

H=–(_p_t×_p_t.log()).sum(1) #教师logits的熵

L_EEKD=(L_our.sum(1)×H).mean() #最终的KD损失

3. 实验分析

3.1 数据集

CIFAR-100^[24]是一个包含50000张训练图像和10000张测试图像的数据集, 用于图像分类任务和计算机视觉研究. 该数据集由100个类别组成, 每个类别有600张大小为32×32的彩色图像, 其中500张作为训练集, 100张作为测试集.

ImageNet (ILSVRC2012)^[25]是一个具有挑战性的数据库, 也是图像分类任务中使用次数较多的大型数据库包含1000个类别的大型数据集, 其中有训练集有128万张图片, 验证集有50000张图片, 测试集有100000张图片.

3.2 实验参数

本文实验在Linux系统上进行并基于CUDA 10.2, PyTorch 1.9.0完成模型的搭建和网络的训练. 实验使用ResNet^[26]、VGG^[27]、ShuffleNet^[28,29]、MobileNet^[30]和Wide ResNet^[31]网络. 对于CIFAR-100数据集, 实验的Batchsize大小为64, 进行360个Epoch的训练, 学习率最初设置为0.1, 并在150个Epoch之后, 每30个Epoch的学习率衰减0.1. 此外式(11)中的超参数r设置为0.4, ${T_{( + )}}$ 和 ${T_{( - )}}$ 设置为2. 对于ImageNet (ILSVRC2012)数据集, 将Batchsize大小设置为256, 所有模型进行150个Epoch的训练, 实验将学习率初始化为0.1, 然后每30个Epoch衰减为当前大小的0.1.

3.3 实验结果

为了验证本文方法的先进性, 将本文的方法与其他具有代表性先进的方法进行比较. 在保持原始设计的同时, 将本文方法集成到基于逻辑的DKD^[2]和MLD^[4]方法中. 如表1和表2所示, 在CIFAR-100数据集中无论是将本文的方法与以前基于逻辑的KD结合, 还是与最近先进的基于逻辑的DKD和MLD结合, 都获得了较高的性能提升, 在同系列师生网络中取得了0.2–0.6百分点的提升, 在不同系列师生网络中取得了0.2–0.7百分点的提升.

表 1 CIFAR-100数据集同系列教师学生网络实验结果(%)

Teacher 模块	Student 模块	Teacher	Student	FitNet^[5]	RKD^[10]	PKT^[32]	CTKD^[11]	CRD^[33]	OFD^[7]	ReviewKD^[6]	KD^[1]	本文方法	DKD^[2]	本文方法+ DKD	MLD^[4]	本文方法+ MLD
ResNet56	ResNet20	72.34	69.06	69.21	69.61	70.34	71.19	71.16	70.98	71.89	70.66	71.34 (+0.68)	71.97	72.31 (+0.34)	72.19	72.76 (+0.57)
ResNet32×4	ResNet8 ×4	79.42	72.50	73.50	71.90	73.64	73.39	75.51	74.95	75.63	73.33	74.81 (+1.48)	76.32	76.83 (+0.51)	77.08	77.68 (+0.60)
WRN-40-2	WRN-16-2	75.61	73.26	73.58	73.35	74.65	75.45	75.48	75.24	76.12	74.92	75.78 (+0.86)	76.24	76.68 (+0.44)	76.63	77.17 (+0.54)
WRN-40-2	WRN-40-1	75.61	71.98	72.24	72.22	73.45	73.93	74.14	74.33	75.09	73.54	74.30 (+0.76)	74.81	75.01 (+0.20)	75.35	75.74 (+0.39)
VGG13	VGG8	74.64	70.36	71.02	71.48	71.62	73.52	73.94	73.95	74.84	72.98	74.03 (+1.05)	74.68	74.96 (+0.28)	75.18	75.57 (+0.39)

表 2 CIFAR-100数据集不同系列教师学生网络实验结果(%)

Teacher 模块	Student 模块	Teacher	Student	FitNet^[5]	RKD^[10]	PKT^[32]	CTKD^[11]	CRD^[33]	OFD^[7]	ReviewKD^[6]	KD^[1]	本文方法	DKD^[2]	本文方法+ DKD	MLD^[4]	本文方法+ MLD
ResNet50	MobileNetV2	79.34	64.60	63.16	64.43	66.52	68.47	69.11	69.04	69.89	67.35	69.33 (+1.98)	70.35	70.73 (+0.38)	71.04	71.34 (+0.30)
ResNet32×4	ShuffleNet V2	79.42	71.82	73.54	73.21	74.69	75.37	75.65	76.82	77.78	74.45	75.89 (+1.44)	77.07	77.57 (+0.50)	78.44	78.72 (+0.28)
ResNet32×4	ShuffleNet V1	79.42	70.50	73.59	72.28	74.10	74.48	75.11	75.98	77.45	74.07	75.23 (+1.16)	76.45	77.02 (+0.57)	77.18	77.85 (+0.67)
WRN-40-2	ShuffleNet V1	75.61	70.50	73.73	72.21	75.03	75.78	76.05	75.85	77.14	74.83	75.86 (+1.03)	76.70	77.08 (+0.38)	77.44	77.79 (+0.35)
VGG13	MobileNetV2	74.64	64.60	64.14	64.52	67.35	68.50	69.73	69.48	70.37	67.37	68.97 (+1.60)	69.71	70.17 (+0.46)	70.57	70.89 (+0.32)

表3和表4展示了本文方法在ImageNet数据集上的实验结果, 进一步证明了本文方法的先进性. 本文实验对同系列师生网络组选取了ResNet34和ResNet18, 对不同系列师生网络组选取了ResNet50和MobileNet.

表 3 ImageNet数据集的同系列师生网络实验结果(%)

方法	Teacher ResNet34	Student ResNet18	OFD^[7]	CRD^[33]	ReviewKD^[6]	KD^[1]	DKD^[2]	本文方法+DKD
Top-1	73.31	69.75	70.81	71.17	71.61	70.66	71.70	72.22

表 4 ImageNet数据集的不同系列师生网络实验结果(%)

方法	Teacher ResNet50	Student MobileNet	OFD^[7]	CRD^[33]	ReviewKD^[6]	KD^[1]	DKD^[2]	本文方法+DKD
Top-1	76.16	68.87	71.25	71.37	72.56	68.58	72.05	72.96

3.4 消融实验

在本文提出的基于能量和熵的蒸馏方法中包含了基于能量的蒸馏和基于熵重加权的蒸馏. 为了进一步了解这两种知识蒸馏对模型性能提升的有效性, 本文通过消融实验探讨了基于能量和熵蒸馏方法的不同情况, 在CIFAR-100数据集上使用ResNet32×4和ResNet8×4分别作为教师和学生模型, 并基于DKD作对比, 如表5所示.

此外, 为了评估高能量与低能量样本采用不同温度的可行性与熵中的 ${T_{{\text{our}}}}$ 能否准确地反映教师对每个样本所感知的难度, 本文进行了温度消融实验, 如表6所示. 其中Low、High表示只对低能量样本和高能量样本应用温度缩放. 而Low+High表示对两种能量样本都使用温度缩放, 其中Ours表示不仅对两种能量样本运用了温度缩放, 而且对熵使用了式(11)的温度进行微调. 实验表明调整两种能量类型的温度比只调整一种能量类型的温度产生了更好的结果, 并且使用温度 ${T_{{\text{our}}}}$ 可以准确地反映教师对每个样本所感知的难度.

表 5 不同方案在CIFAR-100数据集上的实验结果 (%)

方案	基于能量	基于熵	Top-1
A	√	√	76.83
B	√	×	76.49
C	×	√	76.58
D	×	×	76.32

表 6 温度消融在CIFAR-100数据集上的实验结果(%)

方法	Teacher+student
方法	ResNet34+ResNet18	ResNet32+ShuffleNet V2
Low	73.28	75.36
High	73.85	75.33
Low+High	74.58	75.85
Ours	74.81	75.89

4. 结束语

在本文中, 为解决单一温度无法提取全部知识, 引入了样本的能量得分, 根据能量得分将数据集分为低能量和高能量样本, 并对低能量样本应用较高的温度, 对高能量样本应用较低的温度. 此外, 为了让学生更多的关注暗知识, 本文通过熵重新加权能量蒸馏损失, 利用教师软化逻辑的熵, 在样本基础上重新加权蒸馏损失, 确保更加平衡的知识转移. 通过在同系列教师网络和学生网络以及不同系列教师网络和学生网络上的训练测试, 本文模型的图像分类准确率都取得了不错的进步, 证明了该方法的有效性和泛化性.

图 1 不同样本在固定温度和基于能量得分调整后的温度下的最终预测示意图

下载: 全尺寸图片

图 2 样本的能量分布

下载: 全尺寸图片

图 3 EEKD 架构图

下载: 全尺寸图片

表 1 CIFAR-100数据集同系列教师学生网络实验结果(%)

Teacher 模块	Student 模块	Teacher	Student	FitNet^[5]	RKD^[10]	PKT^[32]	CTKD^[11]	CRD^[33]	OFD^[7]	ReviewKD^[6]	KD^[1]	本文方法	DKD^[2]	本文方法+ DKD	MLD^[4]	本文方法+ MLD
ResNet56	ResNet20	72.34	69.06	69.21	69.61	70.34	71.19	71.16	70.98	71.89	70.66	71.34 (+0.68)	71.97	72.31 (+0.34)	72.19	72.76 (+0.57)
ResNet32×4	ResNet8 ×4	79.42	72.50	73.50	71.90	73.64	73.39	75.51	74.95	75.63	73.33	74.81 (+1.48)	76.32	76.83 (+0.51)	77.08	77.68 (+0.60)
WRN-40-2	WRN-16-2	75.61	73.26	73.58	73.35	74.65	75.45	75.48	75.24	76.12	74.92	75.78 (+0.86)	76.24	76.68 (+0.44)	76.63	77.17 (+0.54)
WRN-40-2	WRN-40-1	75.61	71.98	72.24	72.22	73.45	73.93	74.14	74.33	75.09	73.54	74.30 (+0.76)	74.81	75.01 (+0.20)	75.35	75.74 (+0.39)
VGG13	VGG8	74.64	70.36	71.02	71.48	71.62	73.52	73.94	73.95	74.84	72.98	74.03 (+1.05)	74.68	74.96 (+0.28)	75.18	75.57 (+0.39)

表 2 CIFAR-100数据集不同系列教师学生网络实验结果(%)

Teacher 模块	Student 模块	Teacher	Student	FitNet^[5]	RKD^[10]	PKT^[32]	CTKD^[11]	CRD^[33]	OFD^[7]	ReviewKD^[6]	KD^[1]	本文方法	DKD^[2]	本文方法+ DKD	MLD^[4]	本文方法+ MLD
ResNet50	MobileNetV2	79.34	64.60	63.16	64.43	66.52	68.47	69.11	69.04	69.89	67.35	69.33 (+1.98)	70.35	70.73 (+0.38)	71.04	71.34 (+0.30)
ResNet32×4	ShuffleNet V2	79.42	71.82	73.54	73.21	74.69	75.37	75.65	76.82	77.78	74.45	75.89 (+1.44)	77.07	77.57 (+0.50)	78.44	78.72 (+0.28)
ResNet32×4	ShuffleNet V1	79.42	70.50	73.59	72.28	74.10	74.48	75.11	75.98	77.45	74.07	75.23 (+1.16)	76.45	77.02 (+0.57)	77.18	77.85 (+0.67)
WRN-40-2	ShuffleNet V1	75.61	70.50	73.73	72.21	75.03	75.78	76.05	75.85	77.14	74.83	75.86 (+1.03)	76.70	77.08 (+0.38)	77.44	77.79 (+0.35)
VGG13	MobileNetV2	74.64	64.60	64.14	64.52	67.35	68.50	69.73	69.48	70.37	67.37	68.97 (+1.60)	69.71	70.17 (+0.46)	70.57	70.89 (+0.32)

表 3 ImageNet数据集的同系列师生网络实验结果(%)

方法	Teacher ResNet34	Student ResNet18	OFD^[7]	CRD^[33]	ReviewKD^[6]	KD^[1]	DKD^[2]	本文方法+DKD
Top-1	73.31	69.75	70.81	71.17	71.61	70.66	71.70	72.22

表 4 ImageNet数据集的不同系列师生网络实验结果(%)

方法	Teacher ResNet50	Student MobileNet	OFD^[7]	CRD^[33]	ReviewKD^[6]	KD^[1]	DKD^[2]	本文方法+DKD
Top-1	76.16	68.87	71.25	71.37	72.56	68.58	72.05	72.96

表 5 不同方案在CIFAR-100数据集上的实验结果 (%)

方案	基于能量	基于熵	Top-1
A	√	√	76.83
B	√	×	76.49
C	×	√	76.58
D	×	×	76.32

表 6 温度消融在CIFAR-100数据集上的实验结果(%)

方法	Teacher+student
方法	ResNet34+ResNet18	ResNet32+ShuffleNet V2
Low	73.28	75.36
High	73.85	75.33
Low+High	74.58	75.85
Ours	74.81	75.89

参考文献(33)

[1]	Hinton G, Vinyals O, Dean J. Distilling the knowledge in a neural network. arXiv:1503.02531, 2015.
[2]	Zhao BR, Cui Q, Song RJ, et al. Decoupled knowledge distillation. Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022. 11953–11962.
[3]	Chen DF, Mei JP, Zhang HL, et al. Knowledge distillation with the reused teacher classifier. Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022. 11933–11942.
[4]	Jin Y, Wang JQ, Lin DH. Multi-level logit distillation. Proceedings of the 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023. 24276–24285.
[5]	Romero A, Ballas N, Kahou SE, et al. FitNets: Hints for thin deep nets. Proceedings of the 3rd International Conference on Learning Representations. San Diego, 2015.
[6]	Chen PG, Liu S, Zhao HS, et al. Distilling knowledge via knowledge review. Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021. 5008–5017.
[7]	Heo B, Kim J, Yun S, et al. A comprehensive overhaul of feature distillation. Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019. 1921–1930.
[8]	Guo ZY, Yan HN, Li H, et al. Class attention transfer based knowledge distillation. Proceedings of the 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023. 11868–11877.
[9]	Chen ZH, Shamsabadi EA, Jiang S, et al. Robust feature knowledge distillation for enhanced performance of lightweight crack segmentation models. arXiv:2404.06258, 2024.
[10]	Park W, Kim D, Lu Y, et al. Relational knowledge distillation. Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019. 3967–3976.
[11]	Li Z, Li X, Yang LF, et al. Curriculum temperature for knowledge distillation. Proceedings of the 37th AAAI Conference on Artificial Intelligence. Washington: AAAI Press, 2023. 1504–1512.
[12]	Ren MY, Zeng WY, Yang B, et al. Learning to reweight examples for robust deep learning. Proceedings of the 35th International Conference on Machine Learning. Stockholm: PMLR, 2018. 4334–4343.
[13]	Lin TY, Goyal P, Girshick R, et al. Focal loss for dense object detection. Proceedings of the 2017 IEEE International Conference on Computer Vision. Venice: IEEE, 2017. 2999–3007.
[14]	Lu P, Ghaddar A, Rashid A, et al. RW-KD: Sample-wise loss terms re-weighting for knowledge distillation. Proceedings of the 2021 Findings of the Association for Computational Linguistics. Punta Cana: ACL, 2021. 3145–3152.
[15]	Tang JX, Shivanna R, Zhao Z, et al. Understanding and improving knowledge distillation. arXiv:2002.03532, 2020.
[16]	Zhou HL, Song LC, Chen JJ, et al. Rethinking soft labels for knowledge distillation: A bias-variance tradeoff perspective. Proceedings of the 9th International Conference on Learning Representations. OpenReview.net, 2021.
[17]	Salakhutdinov R, Larochelle H. Efficient learning of deep Boltzmann machines. Proceedings of the 13th International Conference on Artificial Intelligence and Statistics. Sardinia: JMLR, 2010. 693–700.
[18]	Ranzato M, Boureau YL, Chopra S, et al. A unified energy-based framework for unsupervised learning. Proceedings of the 11th International Conference on Artificial Intelligence and Statistics. PMLR, 2007. 371–379.
[19]	Zhao JJ, Mathieu M, LeCun Y. Energy-based generative adversarial networks. Proceedings of the 5th International Conference on Learning Representations. Toulon: OpenReview.net, 2017.
[20]	Liu WT, Wang XY, Owens JD, et al. Energy-based out-of-distribution detection. Proceedings of the 34th International Conference on Neural Information Processing Systems. Vancouver: Curran Associates Inc., 2020. 1802.
[21]	LeCun Y, Chopra S, Hadsell R, et al. A tutorial on energy-based learning. Bakir G, Hofmann T, Schölkopf B, et al. Predicting Structured Data. Cambridge: MIT Press, 2006.
[22]	Grathwohl W, Wang KC, Jacobsen JH, et al. Your classifier is secretly an energy based model and you should treat it like one. Proceedings of the 8th International Conference on Learning Representations. Addis Ababa: OpenReview.net, 2020.
[23]	Shannon CE. A mathematical theory of communication. Bell System Technical Journal, 1948, 27(3): 379–423. [doi: 10.1002/j.1538-7305.1948.tb01338.x]
[24]	Krizhevsky A, Hinton G. Learning multiple layers of features from tiny images. Handbook of Systemic Autoimmune Diseases, 2009, 1(4): 1–60.
[25]	Deng J, Dong W, Socher R, et al. ImageNet: A large-scale hierarchical image database. Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami: IEEE, 2009. 248–255.
[26]	He KM, Zhang XY, Ren SQ, et al. Deep residual learning for image recognition. Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016. 770–778.
[27]	Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition. Proceedings of the 3rd International Conference on Learning Representations. San Diego, 2015.
[28]	Zhang XY, Zhou XY, Lin MX, et al. ShuffleNet: An extremely efficient convolutional neural network for mobile devices. Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018. 6848–6856.
[29]	Ma NN, Zhang XY, Zheng HT, et al. ShuffleNet V2: Practical guidelines for efficient CNN architecture design. Proceedings of the 15th European Conference on Computer Vision. Munich: Springer, 2018. 116–131.
[30]	Sandler M, Howard A, Zhu ML, et al. MobileNetV2: Inverted residuals and linear bottlenecks. Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018. 4510–4520.
[31]	Zagoruyko S, Komodakis N. Wide residual networks. arXiv:1605.07146, 2016.
[32]	Passalis N, Tzelepi M, Tefas A. Probabilistic knowledge transfer for lightweight deep representation learning. IEEE Transactions on Neural Networks and Learning Systems, 2021, 32(5): 2030–2039. [doi: 10.1109/TNNLS.2020.2995884]
[33]	Tian YL, Krishnan D, Isola P. Contrastive representation distillation. arXiv:1910.10699, 2019.

点击查看大图

图(3) / 表(6)

摘要

1. 相关工作
1.1 样本加权
1.2 基于能量的学习
2. 本文方法
2.1 基于能量的模型
2.2 基于能量的知识蒸馏
2.3 基于熵加权的知识蒸馏
3. 实验分析
3.1 数据集
3.2 实验参数
3.3 实验结果
3.4 消融实验
4. 结束语

微信公众号

网站二维码