アベレージのアンサンブル:ドメイン一般化におけるモデル選択の改善とパフォーマンス向上

ドメイン一般化(Domain Generalization: DG)の設定において、特定の訓練ドメイン群上で独立に訓練されたモデルは、分布シフトが生じたテストドメインにおいて著しく不安定な性能を示すことが知られており、最適化における確率的要素(例:シード値の違い)がその原因の一つとして大きく寄与している。このため、実世界の応用において深層学習モデルの信頼性が損なわれる。本研究では、単一モデルの訓練最適化経路上においても、このような不安定な挙動が存在することを示し、ドメイン一般化性能を著しく向上させるとともに、確率的要素の影響を低減するシンプルなモデル平均化プロトコルを提案する。このプロトコルは、ドメイン内検証精度とドメイン外テスト精度との順位相関(rank correlation)を改善することで、信頼性の高い早期停止(early stopping)を可能にするという点で重要である。本研究の観察を活かし、実践的に一般的な未平均化モデルのアンサンブル(ensemble)ではなく、独立実行からの移動平均モデル(Ensemble of Averages: EoA)をアンサンブルすることで、さらなる性能向上が達成されることを示す。また、ドメイン一般化設定に適応した従来のバイアス-バリアンストレードオフの枠組みを用いて、アンサンブルおよびモデル平均化による性能向上の理論的裏付けを提示する。DomainBedベンチマークにおいて、事前学習済みのResNet-50を用いた場合、本手法の平均精度は68.0%に達し、単純なERM(平均化・アンサンブルなし)と比較して約4%の上回る性能を示した。また、事前学習済みのRegNetY-16GFを用いた場合、平均精度は76.6%に達し、同様に6%の性能向上を達成した。本研究のコードは、https://github.com/salesforce/ensemble-of-averages にて公開されている。