Ensemble of Averages: Verbesserung der Modellauswahl und Leistungssteigerung bei der Domänenverallgemeinerung

In Domain Generalization (DG)-Szenarien zeigen Modelle, die unabhängig auf einer gegebenen Menge von Trainingsdomänen trainiert wurden, notoriously chaotisches Verhalten auf Testdomänen mit veränderter Verteilung, wobei die Stochastik in der Optimierung (z. B. durch den Zufallssamen) eine große Rolle spielt. Dies macht tiefe Lernmodelle in realen Anwendungen unzuverlässig. Wir zeigen zunächst, dass dieses chaotische Verhalten bereits entlang der Optimierungstrajektorie eines einzelnen Modells auftritt, und schlagen einen einfachen Modell-Averaging-Protokoll vor, das sowohl die Domain Generalization erheblich verbessert als auch die Auswirkungen der Stochastik reduziert, indem es die Rangkorrelation zwischen der Validierungs-Genauigkeit innerhalb der Domäne und der Testgenauigkeit außerhalb der Domäne erhöht – eine entscheidende Voraussetzung für zuverlässiges Early Stopping. Ausnutzend unsere Beobachtung zeigen wir, dass anstelle der Ensembles unvermittelter Modelle (wie es in der Praxis üblich ist), die Ensembles von beweglichen Durchschnittsmodellen (EoA) aus unabhängigen Laufzeiten die Leistung weiter steigern. Theoretisch erklären wir den Leistungsanstieg durch Ensembling und Modell-Averaging, indem wir das wohl bekannte Bias-Variance-Trade-off an den Kontext der Domain Generalization anpassen. Auf dem DomainBed-Benchmark erreicht unser Ensemble von Durchschnittsmodellen mit vortrainiertem ResNet-50 eine durchschnittliche Genauigkeit von $68{,}0\%$, was etwa $4\%$ über der Leistung des herkömmlichen ERM (ohne Averaging/Ensembling) liegt. Bei Verwendung eines vortrainierten RegNetY-16GF erreicht es eine durchschnittliche Genauigkeit von $76{,}6\%$, was eine Steigerung um $6\%$ gegenüber dem Standard-ERM darstellt. Unser Code ist unter https://github.com/salesforce/ensemble-of-averages verfügbar.