SIMPLE: Spezialisierter Modell-Probe-Abgleich für Domänenverallgemeinerung

In der Domain-Verallgemeinerung (Domain Generalization, DG) zielen die meisten bestehenden Methoden darauf ab, ein bestimmtes vortrainiertes Modell durch neuartige DG-Algorithmen feinzustellen. In diesem Artikel schlagen wir eine alternative Herangehensweise vor, nämlich, effizient auf eine Sammlung vortrainierter Modelle zurückzugreifen, ohne diese zu feintunen. Anhand umfangreicher empirischer und theoretischer Befunde zeigen wir, dass (1) vortrainierte Modelle bereits eine gewisse Verallgemeinerungsfähigkeit besitzen, jedoch kein einzelnes vortrainiertes Modell für alle Verteilungsverschiebungen optimal ist, und dass (2) der OOD-Verallgemeinerungsfehler von der Passgenauigkeit zwischen dem vortrainierten Modell und den unbekannten Testverteilungen abhängt. Diese Analyse motiviert uns, eine Vielzahl vortrainierter Modelle zu integrieren und mittels Empfehlungstechniken das am besten geeignete Modell für jedes OOD-Beispiel dynamisch auszuwählen. Dazu präsentieren wir SIMPLE, eine spezialisierte Methode zur Modell-Probe-Übereinstimmung für die Domain-Verallgemeinerung. Zunächst werden die Vorhersagen der vortrainierten Modelle durch eine lineare Transformation des Labelraums an die Ziel-Domain angepasst. Anschließend wird ein Übereinstimmungsnetzwerk vorgestellt, das die Spezialisierung der Modelle berücksichtigt und dynamisch geeignete vortrainierte Modelle für die Vorhersage jedes Testbeispiels empfiehlt. Experimente auf DomainBed zeigen, dass unsere Methode im Vergleich zu aktuellen State-of-the-Art (SOTA)-Methoden erhebliche Leistungsverbesserungen erzielt (bis zu 12,2 % pro Datensatz und durchschnittlich 3,9 %) und zusätzlich durch Erweiterung der Sammlung vortrainierter Modelle einen weiteren Gewinn von 6,1 % erreicht. Zudem ist unsere Methode äußerst effizient und erzielt gegenüber herkömmlichen DG-Methoden, die ein vortrainiertes Modell feintunen, eine Beschleunigung um mehr als das 1000-Fache. Der Code und ergänzende Materialien sind unter https://seqml.github.io/simple verfügbar.