SWAD:平坦な最小値を探索するによるドメイン一般化

ドメイン一般化(Domain Generalization, DG)手法は、ソースドメインからの訓練データのみを用いて、未観測のターゲットドメインに対しても汎化性能を達成することを目指している。これまで多様なDG手法が提案されてきたが、最近の研究では、公正な評価プロトコルであるDomainBedに基づく評価において、単純な経験的リスク最小化(Empirical Risk Minimization, ERM)アプローチが従来の手法と同等、あるいはそれ以上に優れた性能を示すことが明らかになった。残念ながら、複雑で非凸な損失関数上でERMを単純に最適化すると、鋭い極小値(sharp minima)を探索する傾向があり、結果として汎化性能が劣化する可能性がある。本論文では、理論的に平坦な極小値(flat minima)を探索することが、ドメイン一般化ギャップを小さくすることにつながることを示す。さらに、平坦な極小値を効果的に探索するシンプルかつ実用的な手法、Stochastic Weight Averaging Densely(SWAD)を提案する。SWADは、密度の高いかつ過学習に注意を払った確率的重みサンプリング戦略により、従来のSWA(Stochastic Weight Averaging)よりもより平坦な極小値を探索し、過学習の影響も軽減する。SWADは、PACS、VLCS、OfficeHome、TerraIncognita、DomainNetの5つのDGベンチマークにおいて、従来の手法を上回る最先端の性能を達成しており、ドメイン外精度において平均で+1.6%の大幅な向上を示した。また、データ拡張や一貫性正則化などの従来の汎化手法と比較することで、著しい性能向上が平坦な極小値の探索に起因するものであり、ドメイン内での汎化性能の向上によるものではないことを確認した。最後に、SWADは既存のDG手法に変更を加えることなく容易に統合可能であり、SWADと既存のDG手法を組み合わせることで、さらに高いDG性能が得られることが示された。ソースコードは、https://github.com/khanrc/swad にて公開されている。