Verteilungsrobuste neuronale Netze für Gruppenshifts: Zur Bedeutung der Regularisierung für die schlechteste Fallverallgemeinerung

Überparametrisierte neuronale Netze können im Durchschnitt auf einem i.i.d.-Testset sehr präzise sein, versagen jedoch konsistent bei atypischen Datengruppen (z. B. durch das Lernen von spurious Korrelationen, die im Durchschnitt gelten, aber in solchen Gruppen nicht gelten). Verteilungsrobuste Optimierung (Distributionally Robust Optimization, DRO) ermöglicht es, Modelle zu lernen, die stattdessen die schlechtestmögliche Trainingsverluste über einer vorgegebenen Menge von Gruppen minimieren. Wir stellen jedoch fest, dass eine naiv angewandte Gruppen-DRO auf überparametrisierten neuronalen Netzen scheitert: Diese Modelle können die Trainingsdaten perfekt anpassen, und jedes Modell mit verschwindendem durchschnittlichem Trainingsverlust weist bereits einen verschwindenden schlechtesten Fall-Verlust auf. Stattdessen entsteht die schlechte Leistung im schlimmsten Fall durch eine schlechte Generalisierung auf bestimmte Gruppen. Durch die Koppelung von Gruppen-DRO-Modellen mit erhöhter Regularisierung – einer stärkeren als üblich L2-Penalisierung oder früherem Stopp – erreichen wir signifikant höhere Genauigkeiten für die schlechtesten Gruppen, mit Verbesserungen um 10 bis 40 Prozentpunkte bei einer Aufgabe der natürlichen Sprachinferenz sowie zwei Bildaufgaben, wobei gleichzeitig hohe Durchschnittsgenauigkeiten erhalten bleiben. Unsere Ergebnisse deuten darauf hin, dass Regularisierung für die Generalisierung auf die schlechtesten Gruppen im überparametrisierten Regime wichtig ist, selbst wenn sie für die durchschnittliche Generalisierung nicht erforderlich ist. Schließlich stellen wir einen stochastischen Optimierungsalgorithmus vor, der Konvergenzgarantien besitzt und es ermöglicht, Gruppen-DRO-Modelle effizient zu trainieren.