SWAD: Domänenverallgemeinerung durch die Suche nach flachen Minima

Methoden zur domainspezifischen Generalisierung (Domain Generalization, DG) zielen darauf ab, eine hohe Generalisierbarkeit auf unerfahrene Zieldomains zu erreichen, indem ausschließlich Trainingsdaten aus Quelldomains verwendet werden. Obwohl eine Vielzahl von DG-Methoden vorgeschlagen wurde, zeigt eine jüngere Studie unter einer fairen Evaluationsprotokoll, dem sogenannten DomainBed, dass der einfache Ansatz der empirischen Risikominimierung (Empirical Risk Minimization, ERM) mit bisherigen Methoden vergleichbar oder sogar überlegen ist. Leider kann die reine Lösung von ERM bei einer komplexen, nicht-konvexen Verlustfunktion leicht zu einer suboptimalen Generalisierbarkeit führen, da scharfe Minima angestrebt werden. In diesem Paper zeigen wir theoretisch, dass die Suche nach flachen Minima zu einer geringeren Generalisierungs-Lücke zwischen Domains führt. Darüber hinaus stellen wir eine einfache, aber effektive Methode namens Stochastic Weight Averaging Densely (SWAD) vor, um flache Minima zu finden. SWAD erzielt flachere Minima und leidet weniger unter Überanpassung als die herkömmliche SWA, dank einer dichten und überanpassungs-awareen Strategie zur stochastischen Gewichtsabtastung. SWAD erreicht state-of-the-art Ergebnisse auf fünf gängigen DG-Benchmarks – PACS, VLCS, OfficeHome, TerraIncognita und DomainNet – mit durchschnittlich +1,6 % höherer Ausfall- oder OoD-Genauigkeit (out-of-domain accuracy). Wir vergleichen SWAD zudem mit herkömmlichen Generalisierungsstrategien wie Datenaugmentation und Konsistenzregularisierung, um zu bestätigen, dass die signifikanten Leistungsverbesserungen tatsächlich auf die Suche nach flachen Minima zurückzuführen sind und nicht auf eine verbesserte In-Domain-Generalisierbarkeit. Abschließend lässt sich SWAD problemlos in bestehende DG-Methoden integrieren, ohne diese zu modifizieren; die Kombination von SWAD mit einer bestehenden DG-Methode führt zu weiteren Leistungssteigerungen. Der Quellcode ist unter https://github.com/khanrc/swad verfügbar.