
要約
深層ニューラルネットワークの一般化性能は、関数空間の制限や学習中にランダム性を導入する、データ拡張など、幅広い正則化手法の適用により著しく向上してきました。本研究では、モデル自身の知識を段階的に抽出・統合することで、学習中にハードターゲット(すなわちone-hotベクトル)を緩和する、シンプルながら有効な正則化手法である「プログレッシブ自己知識蒸留(Progressive Self-Knowledge Distillation, PS-KD)」を提案します。この手法は、知識蒸留の枠組みにおいて、学生が自ら教師となるという観点から解釈できます。具体的には、正解ラベルとモデル自身の過去の予測を組み合わせることで、ターゲットを適応的に調整します。本研究では、例の分類難易度に応じて勾配を再スケーリングすることにより、PS-KDがハード例の抽出(hard example mining)の効果をもたらすことを示します。提案手法は、ハードターゲットを用いる任意の教師あり学習タスクに適用可能であり、既存の正則化手法と容易に組み合わせることで、さらに一般化性能を向上させることができます。さらに、PS-KDは単に高い精度を達成するだけでなく、校正(calibration)および順序ランク(ordinal ranking)の観点からも信頼性の高い確信度推定を提供することが確認されています。画像分類、物体検出、機械翻訳という3つの異なるタスクにおける広範な実験結果から、本手法が最先端のベースラインモデルの性能を一貫して向上させることを示しています。コードは以下のURLで公開されています:https://github.com/lgcnsai/PS-KD-Pytorch。