
要約
知識蒸留(Knowledge Distillation, KD)は、実用的な深層学習応用において広く用いられる強力なモデル圧縮技術である。この手法は、大きな教師ネットワークの挙動を小さな学生ネットワークが模倣するように学習させる点に焦点を当てている。従来、KDがi.i.d(独立同分布)設定下における学生モデルの一般化性能の向上に寄与することが広く知られているが、ドメインシフト(domain shift)下での性能、すなわち学習時に観測されなかったドメインからのデータに対する学生ネットワークの性能については、これまでの文献で十分な注目を浴びていない。本論文では、知識蒸留とドメイン一般化の研究分野の橋渡しに一歩踏み出す。ドメイン一般化の文脈で提案された重み平均化技術(例:SWADやSMA)が、ドメインシフト下においても知識蒸留の性能向上に寄与することを示す。さらに、訓練中に検証データの評価を必要としないシンプルな重み平均化戦略を提案し、KDに適用した場合、SWADやSMAと同等の性能を発揮することを実証する。本研究で提唱する最終的な蒸留アプローチを「重み平均化知識蒸留(Weight-Averaged Knowledge Distillation, WAKD)」と命名する。