HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Tag
NVIDIA
LLM

NVIDIA erstellt NVFP4-Nemotron-3-Ultra mit Model Optimizer

NVIDIA hat mit dem Nemotron 3 Ultra ein neues Modell-Checkpoint-Format vorgestellt, das auf der NVFP4-Quantisierung basiert und erhebliche Effizienzgewinne bei großen Sprachmodellen ermöglicht. Durch die Verwendung des NVIDIA Model Optimizer wurde das 550-Milliarden-Parameter-Modell von ursprünglich 1121 Gigabyte auf rund 352 Gigabyte komprimiert, was einer Reduktion von 3,2-fach entspricht. Trotz der deutlichen Datenkompression bleibt die Genauigkeit mit der Vorlage im BF16-Format nahezu identisch. Auf workload-intensiven Dekodierprozessen erzielt das NVFP4-Checkpunkt eine bis zu 5,9-fach höhere Inferenzgeschwindigkeit im Vergleich zu vergleichbaren FP4-Modellen wie dem GLM-5.1 754B. Ein zentrales Merkmal der Quantisierung ist die durchdachte, schichtweise Mixed-Precision-Strategie. Nicht alle Modellkomponenten werden auf NVFP4 komprimiert. Stattdessen werden Embedding-Layer, Attention-Projektionen und Mamba-Block-Konvolutionen im ursprünglichen BF16-Format belassen, während routed-Expertenschichten der Mixture-of-Experts-Architektur NVFP4 nutzen. Geteilte Experten- und Mamba-Projektionen sowie der KV-Cache verwenden FP8. Diese präzise Abstimmung ermöglicht zudem eine plattformübergreifende Kompatibilität: Das Checkpunkt lässt sich nahtlos auf Hopper- und Blackwell-Architekturen ausführen. Während Blackwell native W4A4-Berechnungen unterstützt, wechselt das Serving-Framework auf Hopper automatisch auf W4A16, um den Arbeitsspeicherbedarf für Multi-Token Prediction zu optimieren. Die Entwicklung des Checkpoints erforderte die Überwindung spezifischer quantisierungsbedingter Herausforderungen. Herkömmliche Skalierungsmethoden wie Max-Skalierung leiden unter Ausreißern, die kleine Gewichtswerte vernichten, während MSE-basierte Ansätze die Modellgenauigkeit nicht zuverlässig steigern. Als Lösung führte NVIDIA die Four-over-Six-Skalierung ein, die pro Block adaptiv zwischen zwei Gitterwerten wechselt, um Rundungsfehler im kritischen Übergangsbereich zu minimieren. Diese Methode senkte den mittleren quadratischen Fehler bei Expertengewichten um 16,4 Prozent und sicherte eine Genauigkeitswiederherstellung von 98,5 Prozent im Vergleich zu BF16. Durch systematische Tests wurde zudem ein optimaler Bits-per-Element-Wert von 5,03 BPE identifiziert, der das Gleichgewicht zwischen Modellgröße und Benchmarkergebnissen perfekt ausbalanciert. Die praktische Umsetzung erfolgt vollständig über den NVIDIA Model Optimizer, der eine konfigurationsgetriebene, parallele Post-Training-Quantisierung unterstützt. Mithilfe von Megatron-LM lässt sich der Kalibrierungsprozess auf bis zu 16 B300-GPUs parallelisieren, wodurch die Lade- und Kalibrierungszeit von rund 85 auf neun Minuten sinkt. Entwickler können die Quantisierung via YAML-Rezepturen maßschneidern, wobei spezifische Module gezielt von der NVFP4-Komprimierung ausgenommen oder in höhere Präzisionsformate umgewandelt werden können. Die finale Konfiguration mit Four-over-Six-Unterstützung wird im Juli im Release 0.46 des Model Optimizer verfügbar sein. Das gesamte Framework ist als Open-Source-Projekt verfügbar und ermöglicht Entwicklern eine reproduzierbare, skalierbare Pipeline für die Quantisierung beliebiger Hugging-Face-Modelle.

Verwandte Links