HyperAIHyperAI

Command Palette

Search for a command to run...

Durchschnittliche Gewichte führen zu breiteren Optima und besserer Generalisierung

Pavel Izmailov*1 Dmitrii Podoprikhin*2,3 Timur Garipov*4,5 Dmitry Vetrov2,3 Andrew Gordon Wilson1

Zusammenfassung

Tiefe neuronale Netze werden in der Regel durch die Optimierung einer Verlustfunktion mit einer Variante des stochastischen Gradientenabstiegs (SGD) und einem abnehmenden Lernrate bis zur Konvergenz trainiert. Wir zeigen, dass eine einfache Durchschnittsbildung von mehreren Punkten entlang der Trajektorie des SGD, bei zyklischer oder konstanter Lernrate, zu einer besseren Generalisierung führt als das herkömmliche Training. Zudem weisen wir nach, dass dieses Verfahren der stochastischen Gewichtsdurchschnittsbildung (Stochastic Weight Averaging, SWA) viel flachere Lösungen findet als SGD und den jüngsten Ansatz des schnellen geometrischen Ensemble (Fast Geometric Ensembling, FGE) mit einem einzelnen Modell annähert. Mit SWA erreichen wir bemerkenswerte Verbesserungen der Testgenauigkeit im Vergleich zum herkömmlichen SGD-Training auf einer Reihe von state-of-the-art Residual Networks, PyramidNets, DenseNets und Shake-Shake Netzwerken auf CIFAR-10, CIFAR-100 und ImageNet. Kurz gesagt, ist SWA extrem einfach umzusetzen, verbessert die Generalisierung und hat praktisch keinen rechnerischen Overhead.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp