HyperAIHyperAI

Command Palette

Search for a command to run...

SWAD: Domänenverallgemeinerung durch die Suche nach flachen Minima

Junbum Cha Sanghyuk Chun Kyungjae Lee Han-Cheol Cho Seunghyun Park Yunsung Lee Sungrae Park

Zusammenfassung

Methoden zur domainspezifischen Generalisierung (Domain Generalization, DG) zielen darauf ab, eine hohe Generalisierbarkeit auf unerfahrene Zieldomains zu erreichen, indem ausschließlich Trainingsdaten aus Quelldomains verwendet werden. Obwohl eine Vielzahl von DG-Methoden vorgeschlagen wurde, zeigt eine jüngere Studie unter einer fairen Evaluationsprotokoll, dem sogenannten DomainBed, dass der einfache Ansatz der empirischen Risikominimierung (Empirical Risk Minimization, ERM) mit bisherigen Methoden vergleichbar oder sogar überlegen ist. Leider kann die reine Lösung von ERM bei einer komplexen, nicht-konvexen Verlustfunktion leicht zu einer suboptimalen Generalisierbarkeit führen, da scharfe Minima angestrebt werden. In diesem Paper zeigen wir theoretisch, dass die Suche nach flachen Minima zu einer geringeren Generalisierungs-Lücke zwischen Domains führt. Darüber hinaus stellen wir eine einfache, aber effektive Methode namens Stochastic Weight Averaging Densely (SWAD) vor, um flache Minima zu finden. SWAD erzielt flachere Minima und leidet weniger unter Überanpassung als die herkömmliche SWA, dank einer dichten und überanpassungs-awareen Strategie zur stochastischen Gewichtsabtastung. SWAD erreicht state-of-the-art Ergebnisse auf fünf gängigen DG-Benchmarks – PACS, VLCS, OfficeHome, TerraIncognita und DomainNet – mit durchschnittlich +1,6 % höherer Ausfall- oder OoD-Genauigkeit (out-of-domain accuracy). Wir vergleichen SWAD zudem mit herkömmlichen Generalisierungsstrategien wie Datenaugmentation und Konsistenzregularisierung, um zu bestätigen, dass die signifikanten Leistungsverbesserungen tatsächlich auf die Suche nach flachen Minima zurückzuführen sind und nicht auf eine verbesserte In-Domain-Generalisierbarkeit. Abschließend lässt sich SWAD problemlos in bestehende DG-Methoden integrieren, ohne diese zu modifizieren; die Kombination von SWAD mit einer bestehenden DG-Methode führt zu weiteren Leistungssteigerungen. Der Quellcode ist unter https://github.com/khanrc/swad verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
SWAD: Domänenverallgemeinerung durch die Suche nach flachen Minima | Paper | HyperAI