HyperAIHyperAI

Command Palette

Search for a command to run...

GradInit: Lernen, neuronale Netzwerke für eine stabile und effiziente Ausbildung zu initialisieren

Chen Zhu Renkun Ni Zheng Xu Kezhi Kong W. Ronny Huang Tom Goldstein

Zusammenfassung

Innovationen in neuronalen Architekturen haben bedeutende Durchbrüche in der Sprachmodellierung und Computer Vision ermöglicht. Leider führen neue Architekturen oft zu schwierigen Hyperparameter-Wahlen und Instabilitäten während des Trainings, wenn die Netzwerkparameter nicht korrekt initialisiert werden. Es wurden mehrere architekturspezifische Initialisierungsschemata vorgeschlagen, doch diese sind nicht immer auf neue Architekturen übertragbar. In diesem Paper stellen wir GradInit vor – eine automatisierte und architekturunabhängige Methode zur Initialisierung neuronaler Netze. GradInit basiert auf einer einfachen Heuristik: Der Normwert jeder Netzwerkschicht wird so angepasst, dass ein einziger Schritt des SGD- oder Adam-Optimierers mit vorgegebenen Hyperparametern den kleinstmöglichen Verlustwert ergibt. Diese Anpassung erfolgt durch Einführung eines skalaren Multiplikators vor jeder Parametergruppe, deren Werte dann mittels eines einfachen numerischen Verfahrens optimiert werden. GradInit beschleunigt die Konvergenz und die Testleistung vieler konvolutionaler Architekturen – sowohl mit als auch ohne Skip-Verbindungen und sogar ohne Normalisierungsschichten. Zudem verbessert GradInit die Stabilität der ursprünglichen Transformer-Architektur für die maschinelle Übersetzung und ermöglicht deren Training ohne Lernraten-Warmup, unabhängig davon, ob Adam oder SGD verwendet wird, und bei einer breiten Palette von Lernraten und Impulskoeffizienten. Der Quellcode ist unter https://github.com/zhuchen03/gradinit verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp