HyperAIHyperAI

Command Palette

Search for a command to run...

ドメインシフト下における知識蒸留における重み平均化の効果

Valeriy Berezovskiy Nikita Morozov

概要

知識蒸留(Knowledge Distillation, KD)は、実用的な深層学習応用において広く用いられる強力なモデル圧縮技術である。この手法は、大きな教師ネットワークの挙動を小さな学生ネットワークが模倣するように学習させる点に焦点を当てている。従来、KDがi.i.d(独立同分布)設定下における学生モデルの一般化性能の向上に寄与することが広く知られているが、ドメインシフト(domain shift)下での性能、すなわち学習時に観測されなかったドメインからのデータに対する学生ネットワークの性能については、これまでの文献で十分な注目を浴びていない。本論文では、知識蒸留とドメイン一般化の研究分野の橋渡しに一歩踏み出す。ドメイン一般化の文脈で提案された重み平均化技術(例:SWADやSMA)が、ドメインシフト下においても知識蒸留の性能向上に寄与することを示す。さらに、訓練中に検証データの評価を必要としないシンプルな重み平均化戦略を提案し、KDに適用した場合、SWADやSMAと同等の性能を発揮することを実証する。本研究で提唱する最終的な蒸留アプローチを「重み平均化知識蒸留(Weight-Averaged Knowledge Distillation, WAKD)」と命名する。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
ドメインシフト下における知識蒸留における重み平均化の効果 | 記事 | HyperAI超神経