HyperAIHyperAI
vor 3 Monaten

Verständnis der Schwierigkeit des Trainings von Transformers

Liyuan Liu, Xiaodong Liu, Jianfeng Gao, Weizhu Chen, Jiawei Han
Verständnis der Schwierigkeit des Trainings von Transformers
Abstract

Transformers haben sich in zahlreichen Aufgaben des natürlichen Sprachverstehens als wirksam erwiesen. Ihre Trainingsprozesse erfordern jedoch erhebliche Anstrengungen hinsichtlich der sorgfältigen Gestaltung moderner Optimierer und Lernraten-Scheduler (z. B. zeigt der herkömmliche SGD keine effektive Trainingsleistung bei Transformers). Ziel dieses Arbeitspapiers ist es, aus empirischer und theoretischer Perspektive zu verstehen, was das Training von Transformers kompliziert. Unsere Analyse zeigt, dass unbalancierte Gradienten nicht die Ursache für die Instabilität des Trainings sind. Stattdessen identifizieren wir einen Verstärkungseffekt, der das Training erheblich beeinflusst: In einem mehrschichtigen Transformer-Modell führt die starke Abhängigkeit jeder Schicht von ihrem Residual-Zweig zu Instabilität, da kleine Parameterstörungen (z. B. Parameterupdates) verstärkt werden und erhebliche Störungen im Modelloutput verursachen. Gleichzeitig beobachten wir, dass eine zu geringe Abhängigkeit die Modellleistung einschränkt und zu unterdurchschnittlichen Ergebnissen führt. Inspiriert durch diese Erkenntnisse schlagen wir Admin (Adaptive model initialization) vor, um die frühe Trainingsphase zu stabilisieren und das volle Potenzial des Modells in der späten Trainingsphase freizusetzen. Umfangreiche Experimente zeigen, dass Admin stabiler ist, schneller konvergiert und eine bessere Leistung erzielt. Die Implementierung ist unter folgender Adresse verfügbar: https://github.com/LiyuanLucasLiu/Transforemr-Clinic.