HyperAIHyperAI

Command Palette

Search for a command to run...

Transformers ohne Tränen: Verbesserung der Normalisierung der Selbst-Attention

Toan Q. Nguyen Julian Salazar

Zusammenfassung

Wir evaluieren drei einfache, auf Normalisierung fokussierte Änderungen zur Verbesserung des Trainings von Transformer-Modellen. Erstens zeigen wir, dass prä-normierte Residualverbindungen (PreNorm) sowie kleinere Initialisierungen eine warmup-freie, auf Validierung basierende Trainingsstrategie mit großen Lernraten ermöglichen. Zweitens schlagen wir eine ℓ₂-Normalisierung mit einem einzigen Skalierungsparameter (ScaleNorm) vor, die zu schnellerem Training und besserer Leistung führt. Drittens bestätigen wir erneut die Wirksamkeit der Normalisierung von Wort-Einbettungen auf eine feste Länge (FixNorm). Auf fünf Übersetzungsparitäten mit geringen Ressourcen aus TED-Talk-basierten Korpora konvergieren diese Änderungen stets und erreichen im Durchschnitt +1,1 BLEU gegenüber aktuellen SOTA-basierten bilingualen Baselines sowie einen neuen Rekordwert von 32,8 BLEU für IWSLT’15 Englisch-Vietnamesisch. Wir beobachten schärfere Leistungscurves, konsistentere Gradientennormen sowie eine lineare Beziehung zwischen der Aktivierungsskalierung und der Tiefe des Dekoders. Überraschenderweise bleiben ScaleNorm und FixNorm auch in der hochressourcenreichen Umgebung (WMT’14 Englisch-Deutsch) konkurrenzfähig, während PreNorm die Leistung beeinträchtigt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp