查 询 高级检索+
共找到相关记录4条
    全 选
    显示方式:|
    • 基于感知重构的解耦知识蒸馏

      2025, 34(2):11-18.DOI: 10.15888/j.cnki.csa.009773CSTR: 32024.14.csa.009773

      关键词:模型压缩知识蒸馏解耦知识蒸馏感知重构类内关系匹配
      摘要 (161)HTML (114)PDF 1.13 M (634)收藏

      摘要:在知识蒸馏(knowledge distillation, KD)领域中, 基于特征的方法可以有效挖掘教师模型所蕴含的丰富知识. 然而, 基于Logit的方法常面临着知识传递不充分和效率低下等问题. 解耦知识蒸馏(decoupled knowledge distillation, DKD)通过将教师模型和学生模型输出的Logit划分为目标类和非目标类进行蒸馏. 这种方式虽然提升了蒸馏精度, 但其基于单实例的蒸馏方式使得批次内样本间的动态关系无法被捕捉到, 尤其是当教师模型和学生模型的输出分布存在显著差异时, 仅依靠解耦蒸馏无法有效弥合这种差异. 为了解决DKD中存在的问题, 本文提出感知重构的方法. 该方法引入一个感知矩阵, 利用模型的表征能力对Logit进行重新校准, 细致分析类内动态关系, 重建更细粒度的类间关系. 由于学生模型的目标是最小化表征差异, 因此将该方法扩展到解耦知识蒸馏中, 把教师模型和学生模型的输出映射到感知矩阵上, 从而使学生模型能够学习到教师模型中更加丰富的知识. 本文方法在CIFAR-100和ImageNet-1K数据集上进行了一系列的验证, 实验结果表明, 该方法训练的学生模型在CIFAR-100数据集上的分类准确率达到了74.98%, 相较于基准方法提升了0.87个百分点, 提升了学生模型的图像分类效果. 此外, 通过对多种方法进行对比实验, 进一步验证了该方法的优越性.

    • 基于能量和熵平衡转移的知识蒸馏

      2025, 34(1):171-178.DOI: 10.15888/j.cnki.csa.009719CSTR: 32024.14.csa.009719

      关键词:知识蒸馏能量暗知识蒸馏温度
      摘要 (102)HTML (81)PDF 1.40 M (285)收藏

      摘要:知识蒸馏(KD)中的温度在以前的大多数工作中被设置为蒸馏过程的固定值. 然而, 重新研究温度时, 发现固定的温度限制了对每个样本中固有知识的利用. 本文根据能量得分将数据集分为低能量样本和高能量样本, 通过实验证实了低能量样本的置信度得分高, 表明其预测是确定的, 而高能量样本的置信度得分低, 意味着预测是不确定的. 为了通过调整非目标类预测来提取最佳的知识, 本文对低能量样本应用较高的温度以创建更平滑的分布, 并对高能量样本应用较低的温度以获得更清晰的分布. 此外, 为解决学生对突出特征的不平衡依赖和对暗知识的疏忽, 本文引入熵重加权的知识蒸馏, 这是利用教师预测中的熵在样本基础上重新加权能量蒸馏损失的方法. 本文方法可以很容易地应用于其他基于逻辑的知识蒸馏方法中, 并获得更好的性能, 可以更接近甚至优于基于特征的方法. 本文在图像分类数据集(CIFAR-100、ImageNet)上进行了广泛的实验, 证明了该方法的有效性.

    • 基于扩散模型的解耦知识蒸馏

      2024, 33(9):58-64.DOI: 10.15888/j.cnki.csa.009615

      关键词:知识蒸馏解耦知识蒸馏扩散模型表征差距师生网络
      摘要 (420)HTML (1542)PDF 1.08 M (2197)收藏

      摘要:知识蒸馏(KD)是一种将复杂模型(教师模型)的知识传递给简单模型(学生模型)的技术, 目前比较受欢迎的蒸馏方法大多停留在基于中间特征层, 继解耦知识蒸馏(DKD)提出后基于响应的知识蒸馏又重新回到SOTA行列, 这种使用强一致性约束条件的策略, 将经典的知识蒸馏拆分为两个部分, 解决了高度耦合的问题. 然而, 这种方法忽略了师生网络架构差距较大所引起的表征差距过大, 进而导致学生模型由于体量较小无法更有效的学习到教师模型的知识的问题. 为了解决这个问题, 本文提出了使用扩散模型来缩小师生模型之间的表征差距, 这种方法将教师特征传输到扩散模型中训练, 然后通过一个轻量级的扩散模型对学生模型进行降噪从而缩小了师生模型的表征差距. 大量的实验表明这种方法对比于基准方法在CIFAR-100、ImageNet数据集上均有较大的提升, 在师生网络架构差距较大时依然能够保持较好的性能.

    • 基于解耦自蒸馏的个性化联邦学习算法

      :1-8.DOI: 10.15888/j.cnki.csa.009843

      关键词:联邦学习个性化学习知识蒸馏解耦知识蒸馏异质数据
      摘要 (8)HTML (0)PDF 517.55 K (58)收藏

      摘要:联邦学习(federated learning, FL)是一种新兴的分布式机器学习框架, 旨在解决数据隐私保护和高效分布式计算的问题. 它允许多个客户端在不共享数据的前提下协同训练全局模型, 但由于各客户端的数据分布存在异质性, 单一的全局模型往往难以满足不同客户端的个性化需求. 针对这一问题, 本文提出了一种结合自蒸馏和解耦知识蒸馏的联邦学习算法, 该算法通过保留客户端的历史模型作为教师模型, 对客户端本地模型的训练进行蒸馏指导, 得到新的本地模型后上传到服务端进行加权平均聚合. 在知识蒸馏中, 通过对目标类知识和非目标类知识进行解耦蒸馏, 实现了对个性化知识的更充分传递. 实验结果表明, 本文提出的方法在CIFAR-10和CIFAR-100数据集上的分类准确率均超过了现有的联邦学习方法.

    上一页1下一页
    共1页4条记录 跳转到GO

您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号