HyperAIHyperAI

Command Palette

Search for a command to run...

Verständnis der Schwierigkeit des Trainings von Transformers

Liyuan Liu Xiaodong Liu Jianfeng Gao Weizhu Chen Jiawei Han

Zusammenfassung

Transformers haben sich in zahlreichen Aufgaben des natürlichen Sprachverstehens als wirksam erwiesen. Ihre Trainingsprozesse erfordern jedoch erhebliche Anstrengungen hinsichtlich der sorgfältigen Gestaltung moderner Optimierer und Lernraten-Scheduler (z. B. zeigt der herkömmliche SGD keine effektive Trainingsleistung bei Transformers). Ziel dieses Arbeitspapiers ist es, aus empirischer und theoretischer Perspektive zu verstehen, was das Training von Transformers kompliziert. Unsere Analyse zeigt, dass unbalancierte Gradienten nicht die Ursache für die Instabilität des Trainings sind. Stattdessen identifizieren wir einen Verstärkungseffekt, der das Training erheblich beeinflusst: In einem mehrschichtigen Transformer-Modell führt die starke Abhängigkeit jeder Schicht von ihrem Residual-Zweig zu Instabilität, da kleine Parameterstörungen (z. B. Parameterupdates) verstärkt werden und erhebliche Störungen im Modelloutput verursachen. Gleichzeitig beobachten wir, dass eine zu geringe Abhängigkeit die Modellleistung einschränkt und zu unterdurchschnittlichen Ergebnissen führt. Inspiriert durch diese Erkenntnisse schlagen wir Admin (Adaptive model initialization) vor, um die frühe Trainingsphase zu stabilisieren und das volle Potenzial des Modells in der späten Trainingsphase freizusetzen. Umfangreiche Experimente zeigen, dass Admin stabiler ist, schneller konvergiert und eine bessere Leistung erzielt. Die Implementierung ist unter folgender Adresse verfügbar: https://github.com/LiyuanLucasLiu/Transforemr-Clinic.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Verständnis der Schwierigkeit des Trainings von Transformers | Paper | HyperAI