Command Palette
Search for a command to run...
Das Potenzial der zweiten Ordnungsoptimierung für LLMs: Eine Studie mit vollständigem Gauss-Newton
Natalie Abreu Nikhil Vyas Sham Kakade Depen Morwani

Abstract
Neuere Bemühungen, die Vortrainingsphase von großen Sprachmodellen (LLM) zu beschleunigen, konzentrieren sich auf rechenzeit-effiziente Approximationen, die die zweite Ordnung der Verlustfunktion ausnutzen. Dies wirft eine zentrale Frage im Kontext großskaliger Trainingsprozesse auf: Wie groß ist der Leistungsverlust durch diese Approximationen? Um diese Frage zu untersuchen, legen wir eine praktische obere Schranke für die Iterationskomplexität fest, indem wir die vollständige Gauss-Newton-(GN)-Vorkonditionierung auf Transformer-Modelle mit bis zu 150 Mio. Parametern anwenden. Unsere Experimente zeigen, dass GN-Updates erhebliche Verbesserungen gegenüber bestehenden Optimierern erzielen und die Anzahl der Trainingsiterationen im Vergleich zu starken Baselines wie SOAP und Muon um das 5,4-fache reduzieren. Darüber hinaus stellen wir fest, dass ein präziser, schichtweise ausgelegter GN-Vorkonditionierer, der Informationen zwischen den Schichten vernachlässigt, die Leistung der vollständigen GN-Methode nahezu erreicht. Zusammenfassend deuten unsere Ergebnisse darauf hin, dass: (1) die GN-Approximation für die Vorkonditionierung äußerst effektiv ist, was darauf hindeutet, dass höhere Ordnungsterme im Verlust möglicherweise nicht entscheidend für die Konvergenzgeschwindigkeit sind; (2) die schichtweise Hessematrixstruktur bereits ausreichend Informationen enthält, um die meisten potenziellen Verbesserungen zu realisieren; und (3) ein erheblicher Leistungsabstand zwischen den derzeitigen approximativen Methoden und einem idealisierten, schichtweisen Orakel besteht.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.