Command Palette
Search for a command to run...
Durchschnittliche Gewichte führen zu breiteren Optima und besserer Generalisierung
Durchschnittliche Gewichte führen zu breiteren Optima und besserer Generalisierung
Pavel Izmailov*1 Dmitrii Podoprikhin*2,3 Timur Garipov*4,5 Dmitry Vetrov2,3 Andrew Gordon Wilson1
Zusammenfassung
Tiefe neuronale Netze werden in der Regel durch die Optimierung einer Verlustfunktion mit einer Variante des stochastischen Gradientenabstiegs (SGD) und einem abnehmenden Lernrate bis zur Konvergenz trainiert. Wir zeigen, dass eine einfache Durchschnittsbildung von mehreren Punkten entlang der Trajektorie des SGD, bei zyklischer oder konstanter Lernrate, zu einer besseren Generalisierung führt als das herkömmliche Training. Zudem weisen wir nach, dass dieses Verfahren der stochastischen Gewichtsdurchschnittsbildung (Stochastic Weight Averaging, SWA) viel flachere Lösungen findet als SGD und den jüngsten Ansatz des schnellen geometrischen Ensemble (Fast Geometric Ensembling, FGE) mit einem einzelnen Modell annähert. Mit SWA erreichen wir bemerkenswerte Verbesserungen der Testgenauigkeit im Vergleich zum herkömmlichen SGD-Training auf einer Reihe von state-of-the-art Residual Networks, PyramidNets, DenseNets und Shake-Shake Netzwerken auf CIFAR-10, CIFAR-100 und ImageNet. Kurz gesagt, ist SWA extrem einfach umzusetzen, verbessert die Generalisierung und hat praktisch keinen rechnerischen Overhead.