vor 9 Monaten

Zusammenfassung

Tiefe neuronale Netze werden in der Regel durch die Optimierung einer Verlustfunktion mit einer Variante des stochastischen Gradientenabstiegs (SGD) und einem abnehmenden Lernrate bis zur Konvergenz trainiert. Wir zeigen, dass eine einfache Durchschnittsbildung von mehreren Punkten entlang der Trajektorie des SGD, bei zyklischer oder konstanter Lernrate, zu einer besseren Generalisierung führt als das herkömmliche Training. Zudem weisen wir nach, dass dieses Verfahren der stochastischen Gewichtsdurchschnittsbildung (Stochastic Weight Averaging, SWA) viel flachere Lösungen findet als SGD und den jüngsten Ansatz des schnellen geometrischen Ensemble (Fast Geometric Ensembling, FGE) mit einem einzelnen Modell annähert. Mit SWA erreichen wir bemerkenswerte Verbesserungen der Testgenauigkeit im Vergleich zum herkömmlichen SGD-Training auf einer Reihe von state-of-the-art Residual Networks, PyramidNets, DenseNets und Shake-Shake Netzwerken auf CIFAR-10, CIFAR-100 und ImageNet. Kurz gesagt, ist SWA extrem einfach umzusetzen, verbessert die Generalisierung und hat praktisch keinen rechnerischen Overhead.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 9 Monaten

Neuronale Netze

Maschinelles Lernen

Faltungsneuronales Netzwerk

Pavel Izmailov1 Dmitrii Podoprikhin2,3 Timur Garipov*4,5 Dmitry Vetrov2,3 Andrew Gordon Wilson1

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 9 Monaten

Neuronale Netze

Maschinelles Lernen

Faltungsneuronales Netzwerk

Pavel Izmailov1 Dmitrii Podoprikhin2,3 Timur Garipov*4,5 Dmitry Vetrov2,3 Andrew Gordon Wilson1

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Durchschnittliche Gewichte führen zu breiteren Optima und besserer Generalisierung

Pavel Izmailov*1 Dmitrii Podoprikhin*2,3 Timur Garipov*4,5 Dmitry Vetrov2,3 Andrew Gordon Wilson1

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Durchschnittliche Gewichte führen zu breiteren Optima und besserer Generalisierung

Pavel Izmailov*1 Dmitrii Podoprikhin*2,3 Timur Garipov*4,5 Dmitry Vetrov2,3 Andrew Gordon Wilson1

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Durchschnittliche Gewichte führen zu breiteren Optima und besserer Generalisierung

Pavel Izmailov*1 Dmitrii Podoprikhin*2,3 Timur Garipov*4,5 Dmitry Vetrov2,3 Andrew Gordon Wilson1

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Pavel Izmailov1 Dmitrii Podoprikhin2,3 Timur Garipov*4,5 Dmitry Vetrov2,3 Andrew Gordon Wilson1

Pavel Izmailov1 Dmitrii Podoprikhin2,3 Timur Garipov*4,5 Dmitry Vetrov2,3 Andrew Gordon Wilson1

Pavel Izmailov1 Dmitrii Podoprikhin2,3 Timur Garipov*4,5 Dmitry Vetrov2,3 Andrew Gordon Wilson1