Schärfebewusste Minimierung zur effizienten Verbesserung der Generalisierung

In heutigen stark überparametrisierten Modellen bietet der Wert der Trainingsverlustfunktion nur noch geringe Garantien hinsichtlich der Generalisierungsfähigkeit des Modells. Tatsächlich kann die reine Optimierung des Trainingsverlustwerts, wie sie üblicherweise durchgeführt wird, leicht zu suboptimaler Modellqualität führen. Ausgehend von vorangegangenen Arbeiten, die die Geometrie des Verlustlandschafts mit der Generalisierung verknüpfen, stellen wir ein neuartiges, effektives Verfahren vor, das den Verlustwert und die Verlustschärfe gleichzeitig minimiert. Insbesondere zielt unsere Methode, die sogenannte Sharpness-Aware Minimization (SAM), darauf ab, Parameter zu finden, die in Umgebungen mit gleichmäßig niedrigem Verlust liegen; diese Formulierung führt zu einem Minimax-Optimierungsproblem, das effizient mittels Gradientenabstieg gelöst werden kann. Wir präsentieren empirische Ergebnisse, die zeigen, dass SAM die Generalisierungsfähigkeit über eine Vielzahl von Benchmark-Datensätzen (z. B. CIFAR-10, CIFAR-100, ImageNet, Fine-Tuning-Aufgaben) und Modelle hinweg verbessert und für mehrere Fälle neue SOTA-Leistungen erzielt. Zudem stellen wir fest, dass SAM eine natürliche Robustheit gegenüber Label-Rauschen aufweist, die der von modernsten Verfahren entspricht, die speziell auf das Lernen mit verrauschten Labels ausgerichtet sind. Wir stellen unseren Code öffentlich unter \url{https://github.com/google-research/sam} zur Verfügung.