HyperAIHyperAI
vor 2 Monaten

Es gibt viele konsistente Erklärungen für unlabeled Daten: Warum Sie durchschnittlich sein sollten.

Ben Athiwaratkun; Marc Finzi; Pavel Izmailov; Andrew Gordon Wilson
Es gibt viele konsistente Erklärungen für unlabeled Daten: Warum Sie durchschnittlich sein sollten.
Abstract

Derzeit sind die erfolgreichsten Ansätze für semisupervises Lernen auf Konsistenzregularisierung basiert, bei der ein Modell darauf trainiert wird, robust gegenüber kleinen Störungen seiner Eingaben und Parameter zu sein. Um Konsistenzregularisierung zu verstehen, untersuchen wir konzeptionell, wie die Verlustgeometrie mit Trainingsverfahren interagiert. Der Konsistenzverlust verbessert die Generalisierungsleistung erheblich im Vergleich zum rein überwachten Training; jedoch zeigen wir, dass SGD (Stochastic Gradient Descent) Schwierigkeiten hat, beim Konsistenzverlust zu konvergieren, und weiterhin große Schritte macht, die zu Änderungen der Vorhersagen auf den Testdaten führen. Angeregt durch diese Beobachtungen schlagen wir vor, konsistenzbasierte Methoden mit Stochastic Weight Averaging (SWA) zu trainieren, einem jüngeren Ansatz, der Gewichte entlang der Trajektorie von SGD mit einem modifizierten Lernratenplan durchschnittt. Wir stellen auch fast-SWA vor, das die Konvergenz durch Durchschnittsbildung mehrerer Punkte innerhalb jedes Zyklus eines zyklischen Lernratenplans weiter beschleunigt. Mit Gewichtsdurchschnittung erreichen wir die besten bekannten semisupervisierten Ergebnisse auf CIFAR-10 und CIFAR-100 bei verschiedenen Mengen an beschrifteten Trainingsdaten. Zum Beispiel erreichen wir einen Fehler von 5,0 % auf CIFAR-10 mit nur 4000 Labels im Vergleich zum bisher besten Ergebnis in der Literatur von 6,3 %.