vor 23 Tagen

Das Potenzial der zweiten Ordnungsoptimierung für LLMs: Eine Studie mit vollständigem Gauss-Newton

Natalie Abreu Nikhil Vyas Sham Kakade Depen Morwani

Abstract

Neuere Bemühungen, die Vortrainingsphase von großen Sprachmodellen (LLM) zu beschleunigen, konzentrieren sich auf rechenzeit-effiziente Approximationen, die die zweite Ordnung der Verlustfunktion ausnutzen. Dies wirft eine zentrale Frage im Kontext großskaliger Trainingsprozesse auf: Wie groß ist der Leistungsverlust durch diese Approximationen? Um diese Frage zu untersuchen, legen wir eine praktische obere Schranke für die Iterationskomplexität fest, indem wir die vollständige Gauss-Newton-(GN)-Vorkonditionierung auf Transformer-Modelle mit bis zu 150 Mio. Parametern anwenden. Unsere Experimente zeigen, dass GN-Updates erhebliche Verbesserungen gegenüber bestehenden Optimierern erzielen und die Anzahl der Trainingsiterationen im Vergleich zu starken Baselines wie SOAP und Muon um das 5,4-fache reduzieren. Darüber hinaus stellen wir fest, dass ein präziser, schichtweise ausgelegter GN-Vorkonditionierer, der Informationen zwischen den Schichten vernachlässigt, die Leistung der vollständigen GN-Methode nahezu erreicht. Zusammenfassend deuten unsere Ergebnisse darauf hin, dass: (1) die GN-Approximation für die Vorkonditionierung äußerst effektiv ist, was darauf hindeutet, dass höhere Ordnungsterme im Verlust möglicherweise nicht entscheidend für die Konvergenzgeschwindigkeit sind; (2) die schichtweise Hessematrixstruktur bereits ausreichend Informationen enthält, um die meisten potenziellen Verbesserungen zu realisieren; und (3) ein erheblicher Leistungsabstand zwischen den derzeitigen approximativen Methoden und einem idealisierten, schichtweisen Orakel besteht.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Das Potenzial der zweiten Ordnungsoptimierung für LLMs: Eine Studie mit vollständigem Gauss-Newton

Natalie Abreu Nikhil Vyas Sham Kakade Depen Morwani

Abstract

KI mit KI entwickeln

Hyper Newsletters