17 天前

权重平均在领域偏移下的知识蒸馏中表现更优

Valeriy Berezovskiy, Nikita Morozov
权重平均在领域偏移下的知识蒸馏中表现更优
摘要

知识蒸馏(Knowledge Distillation, KD)是一种广泛应用于实际深度学习场景的强大模型压缩技术,其核心思想是训练一个小型的学生网络以模仿大型教师网络的行为。尽管已有广泛研究证实,在独立同分布(i.i.d)设定下,KD能够有效提升学生网络的泛化能力,但其在领域偏移(domain shift)场景下的表现——即学生网络在训练过程中未见过的领域数据上的性能——在现有文献中尚未受到足够关注。本文旨在推动知识蒸馏与领域泛化(domain generalization)两个研究方向的融合。我们发现,领域泛化领域中提出的权重平均技术(如SWAD和SMA)同样能够显著提升知识蒸馏在领域偏移条件下的性能。此外,本文提出一种简化的权重平均策略,该策略在训练过程中无需依赖验证集评估,且在应用于知识蒸馏时,其性能可与SWAD和SMA相媲美。基于此,我们最终提出一种名为加权平均知识蒸馏(Weight-Averaged Knowledge Distillation, WAKD)的新型蒸馏方法。

权重平均在领域偏移下的知识蒸馏中表现更优 | 最新论文 | HyperAI超神经