
要約
本研究では、知識蒸留(knowledge distillation)とデータ拡張(data augmentation)を組み合わせることにより、視覚モデルのロバスト性を向上させる、概念的に単純かつ軽量なフレームワークを提案する。我々は、より大きなモデルが必ずしも優れた教師(teacher)になるわけではないという仮説に反して、事前学習済みのファウンデーションモデルから蒸留を行うことで、分布外(out-of-distribution)ロバスト性において顕著な向上が得られることを示した。この知見を基に、強力な教師モデルが adversarial なサンプルを生成し、VQGAN を用いてそれらを離散化する「離散的 adversarial 蒸留(Discrete Adversarial Distillation, DAD)」を提案する。これにより、従来のデータ拡張手法よりも情報量の多いサンプルが生成される。さらに、データ拡張を伴う知識蒸留における強力な教師の利用に関する理論的枠組みを提示し、異なる学生モデル(student architecture)において、分布外ロバスト性およびクリーンな精度(clean accuracy)の両面で顕著な向上を実証した。特に、本手法は類似技術と比較して計算負荷の増加が極めて小さく、他のデータ拡張手法と容易に組み合わせ可能であるため、さらなる性能向上が期待できる。