Transformers ohne Tränen: Verbesserung der Normalisierung der Selbst-Attention

Wir evaluieren drei einfache, auf Normalisierung fokussierte Änderungen zur Verbesserung des Trainings von Transformer-Modellen. Erstens zeigen wir, dass prä-normierte Residualverbindungen (PreNorm) sowie kleinere Initialisierungen eine warmup-freie, auf Validierung basierende Trainingsstrategie mit großen Lernraten ermöglichen. Zweitens schlagen wir eine ℓ₂-Normalisierung mit einem einzigen Skalierungsparameter (ScaleNorm) vor, die zu schnellerem Training und besserer Leistung führt. Drittens bestätigen wir erneut die Wirksamkeit der Normalisierung von Wort-Einbettungen auf eine feste Länge (FixNorm). Auf fünf Übersetzungsparitäten mit geringen Ressourcen aus TED-Talk-basierten Korpora konvergieren diese Änderungen stets und erreichen im Durchschnitt +1,1 BLEU gegenüber aktuellen SOTA-basierten bilingualen Baselines sowie einen neuen Rekordwert von 32,8 BLEU für IWSLT’15 Englisch-Vietnamesisch. Wir beobachten schärfere Leistungscurves, konsistentere Gradientennormen sowie eine lineare Beziehung zwischen der Aktivierungsskalierung und der Tiefe des Dekoders. Überraschenderweise bleiben ScaleNorm und FixNorm auch in der hochressourcenreichen Umgebung (WMT’14 Englisch-Deutsch) konkurrenzfähig, während PreNorm die Leistung beeinträchtigt.