HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA Megatron: Neue Optimierer für schnellere LLM-Training

NVIDIA hat seine Infrastruktur erweitert, um fortgeschrittene Optimierungsalgorithmen für das Training großer Sprachmodelle (LLMs) wie Muon, Shampoo und SOAP zu unterstützen. Diese höherwertigen Optimierungsmethoden, die seit Jahrzehnten in der neuronalen Netzwerkforschung verwendet werden, haben in jüngster Zeit erhebliche Erfolge bei der Ausbildung führender Open-Source-Modelle erzielt, darunter Kimi K2 und GLM-5. Ein zentrales Problem bei der Skalierung dieser Algorithmen auf Tausende von GPUs war der hohe Rechenaufwand für Vorbedingungsschritte sowie Kommunikationsengpässe. NVIDIA adressiert diese Herausforderungen nun durch spezifische Technologien im Rahmen des NeMo Frameworks und der Megatron-Bibliothek. Leistungstests auf dem NVIDIA GB300 NVL72-System mit dem Megatron-Bridge 26.02 zeigen, dass der Muon-Optimizer im Vergleich zum herkömmlichen AdamW-Optimizer kaum Einbußen bei der Trainingsdurchsatzleistung aufweist. Tatsächlich erreicht Muon eine höhere Modell-FLOP-Auslastung, wenn die FLOPs für die Newton-Schulz-Iterationen berücksichtigt werden. Die Tests umfassten das Training des Kimi K2-Modells auf 256 GPUs sowie des Qwen3 30B-Modells auf acht GPUs. Die Ergebnisse belegen, dass Muon in der Praxis effizient und stabil einsetzbar ist. Um die Skalierbarkeit zu gewährleisten, hat NVIDIA mehrere Schlüsseltechnologien eingeführt. Erstens wurde ein schichtweiser verteilter Optimierer entwickelt, der im Gegensatz zu herkömmlichen elementweisen Ansätzen ganze Modell-Schichten auf einzelnen GPU-Ranks speichert. Dies ermöglicht die Berechnung von Präkonditionierern, die für den gesamten Layer benötigt werden, ohne unnötige Datenbewegungen zwischen den Karten. Zweitens wurden verteilte Newton-Schulz-Methoden für Tensor-Parallelismus entwickelt. Dabei bieten sowohl ein modus mit wiederholten Daten (Duplicated Mode) zur Minimierung der Latenz als auch ein verteilter Modus (Distributed Mode) zur Optimierung der Rechenleistung verschiedene Strategien für den orthogonalisierenden Schritt. Zusätzlich wird ein blockweiser Modus unterstützt, der Kommunikation vermeidet, jedoch eine mathematische Approximation darstellt. Weitere Optimierungen umfassen das Verstecken von Kommunikationsvorgängen durch das Verschieben von Parametersammlungen in den Vorwärtsdurchlauf des nächsten Batches sowie die Nutzung von SYRK-Kernen, um Rechenoperationen bei symmetrischen Rang-K-Updates zu halbieren. Auch Fusionstechniken für All-Reduce-Operationen sind in Planung, um die Bandbreitennutzung weiter zu verbessern. Die Technologie ist bereits in die Open-Source-Bibliothek Megatron Core integriert. Entwickler können den Muon-Optimizer durch Aktivierung des Distributed-Optimizer-Flags einfach in ihre Workflows einbinden. NVIDIA betont, dass diese Fortschritte entscheidend sind, um die Effizienzgrenzen beim Training von LLMs weiter zu verschieben. Das Unternehmen lädt die Forschungsgemeinschaft ein, nicht nur Muon, sondern auch weitere emerging Optimizer wie SOAP zu erforschen und die Leistung über das Megatron-Bridge-Repository nachzuvollziehen. Mit diesen Werkzeugen steht nun eine robuste Basis zur Verfügung, um hochmoderne Optimierungsverfahren in industriellen Maßstäben einzusetzen.

Verwandte Links