HyperAIHyperAI
vor 17 Tagen

Zur Mixup-Regularisierung

Luigi Carratino, Moustapha Cissé, Rodolphe Jenatton, Jean-Philippe Vert
Zur Mixup-Regularisierung
Abstract

Mixup ist eine Technik zur Datenverstärkung, die neue Trainingsbeispiele als konvexe Kombinationen von Trainingspunkten und deren Labels erzeugt. Diese einfache Methode hat empirisch gezeigt, dass sie die Genauigkeit vieler moderner State-of-the-art-Modelle in unterschiedlichen Szenarien und Anwendungen verbessert, wobei die zugrundeliegenden Gründe für diesen empirischen Erfolg jedoch bisher nur unzureichend verstanden sind. In diesem Paper machen wir einen wesentlichen Schritt hin zur theoretischen Erklärung der Grundlagen von Mixup, indem wir dessen Regularisierungseffekte klären. Wir zeigen, dass Mixup als ein herkömmlicher Schätzer der empirischen Risikominimierung interpretiert werden kann, der einer Kombination aus Datentransformation und zufälliger Störung der transformierten Daten unterliegt. Aus dieser neuen Interpretation ergeben sich zwei zentrale Erkenntnisse. Erstens deutet die Datentransformation darauf hin, dass ein mit Mixup trainiertes Modell auch bei der Testphase auf transformierte Daten angewendet werden sollte – eine äußerst einfache Änderung im Code, die wir empirisch nachweisen, verbessert sowohl die Genauigkeit als auch die Kalibrierung der Vorhersagen. Zweitens zeigen wir, wie die zufällige Störung in der neuen Interpretation von Mixup mehrere bekannte Regularisierungsschemata induziert, darunter Label Smoothing und die Reduktion der Lipschitz-Konstante des Schätzers. Diese Schemata wirken synergistisch zusammen und führen zu einer selbstkalibrierten und effektiven Regularisierung, die Überanpassung und übermäßige Selbstsicherheit der Vorhersagen verhindert. Unsere theoretischen Analysen werden durch Experimente gestützt, die unsere Schlussfolgerungen bestätigen.