vor 17 Tagen

Fishr: Invariante Gradienten-Varianzen für die Out-of-Distribution-Verallgemeinerung

Alexandre Rame, Corentin Dancette, Matthieu Cord

Abstract

Das Lernen robuster Modelle, die sich gut unter Veränderungen der Datenverteilung generalisieren, ist für reale Anwendungen entscheidend. In diesem Zusammenhang hat sich ein zunehmendes Interesse an der gleichzeitigen Nutzung mehrerer Trainingsdomänen entwickelt – wobei verschiedene Arten von Invarianz zwischen diesen Domänen gefordert werden. Dennoch zeigen alle bestehenden Ansätze unter kontrollierten Evaluationsprotokollen keine systematischen Vorteile. In diesem Paper stellen wir eine neue Regularisierung vor, die als Fishr bezeichnet wird und Invarianz über Domänen im Raum der Gradienten der Verlustfunktion erzwingt: Genauer gesagt werden die varianz-basierten Domänenunterschiede der Gradienten über die Trainingsdomänen hinweg angeglichen. Unser Ansatz basiert auf den engen Beziehungen zwischen der Kovarianz der Gradienten, der Fisher-Information und der Hessematrix des Verlustes: Insbesondere zeigen wir, dass Fishr im Verlauf der Optimierung die lokalen Verlustlandschaften der verschiedenen Domänen um die finalen Gewichte hin ausrichtet. Umfassende Experimente belegen die Wirksamkeit von Fishr für die Generalisierung außerhalb der Trainingsverteilung. Insbesondere verbessert Fishr die bisher beste Leistung auf dem DomainBed-Benchmark und erzielt konsistent bessere Ergebnisse als die herkömmliche empirische Risikominimierung. Der Quellcode ist unter https://github.com/alexrame/fishr verfügbar.