vor 6 Monaten

Zusammenfassung

Transformers haben sich in zahlreichen Aufgaben des natürlichen Sprachverstehens als wirksam erwiesen. Ihre Trainingsprozesse erfordern jedoch erhebliche Anstrengungen hinsichtlich der sorgfältigen Gestaltung moderner Optimierer und Lernraten-Scheduler (z. B. zeigt der herkömmliche SGD keine effektive Trainingsleistung bei Transformers). Ziel dieses Arbeitspapiers ist es, aus empirischer und theoretischer Perspektive zu verstehen, was das Training von Transformers kompliziert. Unsere Analyse zeigt, dass unbalancierte Gradienten nicht die Ursache für die Instabilität des Trainings sind. Stattdessen identifizieren wir einen Verstärkungseffekt, der das Training erheblich beeinflusst: In einem mehrschichtigen Transformer-Modell führt die starke Abhängigkeit jeder Schicht von ihrem Residual-Zweig zu Instabilität, da kleine Parameterstörungen (z. B. Parameterupdates) verstärkt werden und erhebliche Störungen im Modelloutput verursachen. Gleichzeitig beobachten wir, dass eine zu geringe Abhängigkeit die Modellleistung einschränkt und zu unterdurchschnittlichen Ergebnissen führt. Inspiriert durch diese Erkenntnisse schlagen wir Admin (Adaptive model initialization) vor, um die frühe Trainingsphase zu stabilisieren und das volle Potenzial des Modells in der späten Trainingsphase freizusetzen. Umfangreiche Experimente zeigen, dass Admin stabiler ist, schneller konvergiert und eine bessere Leistung erzielt. Die Implementierung ist unter folgender Adresse verfügbar: https://github.com/LiyuanLucasLiu/Transforemr-Clinic.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Transformer

Modelltraining

Natürliche Sprachverarbeitung

Ansatz/Rahmenwerk

Natürliche Sprachverarbeitung

Aufgabe

Liyuan Liu Xiaodong Liu Jianfeng Gao Weizhu Chen Jiawei Han

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Transformer

Modelltraining

Natürliche Sprachverarbeitung

Ansatz/Rahmenwerk

Natürliche Sprachverarbeitung

Aufgabe

Liyuan Liu Xiaodong Liu Jianfeng Gao Weizhu Chen Jiawei Han

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Verständnis der Schwierigkeit des Trainings von Transformers

Liyuan Liu Xiaodong Liu Jianfeng Gao Weizhu Chen Jiawei Han

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Verständnis der Schwierigkeit des Trainings von Transformers

Liyuan Liu Xiaodong Liu Jianfeng Gao Weizhu Chen Jiawei Han

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Verständnis der Schwierigkeit des Trainings von Transformers

Liyuan Liu Xiaodong Liu Jianfeng Gao Weizhu Chen Jiawei Han

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters