17 天前

权重平均在领域偏移下的知识蒸馏中表现更优

Valeriy Berezovskiy, Nikita Morozov

摘要

知识蒸馏（Knowledge Distillation, KD）是一种广泛应用于实际深度学习场景的强大模型压缩技术，其核心思想是训练一个小型的学生网络以模仿大型教师网络的行为。尽管已有广泛研究证实，在独立同分布（i.i.d）设定下，KD能够有效提升学生网络的泛化能力，但其在领域偏移（domain shift）场景下的表现——即学生网络在训练过程中未见过的领域数据上的性能——在现有文献中尚未受到足够关注。本文旨在推动知识蒸馏与领域泛化（domain generalization）两个研究方向的融合。我们发现，领域泛化领域中提出的权重平均技术（如SWAD和SMA）同样能够显著提升知识蒸馏在领域偏移条件下的性能。此外，本文提出一种简化的权重平均策略，该策略在训练过程中无需依赖验证集评估，且在应用于知识蒸馏时，其性能可与SWAD和SMA相媲美。基于此，我们最终提出一种名为加权平均知识蒸馏（Weight-Averaged Knowledge Distillation, WAKD）的新型蒸馏方法。