HyperAIHyperAI

Command Palette

Search for a command to run...

权重平均在领域偏移下的知识蒸馏中表现更优

Valeriy Berezovskiy Nikita Morozov

摘要

知识蒸馏(Knowledge Distillation, KD)是一种广泛应用于实际深度学习场景的强大模型压缩技术,其核心思想是训练一个小型的学生网络以模仿大型教师网络的行为。尽管已有广泛研究证实,在独立同分布(i.i.d)设定下,KD能够有效提升学生网络的泛化能力,但其在领域偏移(domain shift)场景下的表现——即学生网络在训练过程中未见过的领域数据上的性能——在现有文献中尚未受到足够关注。本文旨在推动知识蒸馏与领域泛化(domain generalization)两个研究方向的融合。我们发现,领域泛化领域中提出的权重平均技术(如SWAD和SMA)同样能够显著提升知识蒸馏在领域偏移条件下的性能。此外,本文提出一种简化的权重平均策略,该策略在训练过程中无需依赖验证集评估,且在应用于知识蒸馏时,其性能可与SWAD和SMA相媲美。基于此,我们最终提出一种名为加权平均知识蒸馏(Weight-Averaged Knowledge Distillation, WAKD)的新型蒸馏方法。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供