HyperAIHyperAI

Command Palette

Search for a command to run...

Nemotron-Labs zeigt lichtgeschwindige Textgenerierung

NVIDIA hat mit der Veröffentlichung von Nemotron-Labs Diffusion einen bedeutenden Fortschritt in der Technologie der Textgenerierung erzielt. Traditionelle Large Language Models (LLMs) erzeugen Text üblicherweise autoregressiv, das heißt, sie produzieren Wort für Wort und jedes neue Token hängt von den vorherigen ab. Dieser Ansatz birgt trotz seiner Weite verbreiteten Erfolge erhebliche Nachteile: Er erfordert für jedes Token einen vollständigen Modell-Durchlauf, was zu hohen Latenzzeiten führt und die Rechenleistung moderner GPUs ineffizient nutzt, da der Großteil der Zeit auf den Datenfluss zwischen Arbeitsspeicher und Prozessor entfällt. Zudem sind Fehler in der autoregressiven Kette nicht korrigierbar, da einmal generierte Tokens endgültig sind. Nemotron-Labs Diffusion adressiert diese Probleme durch Diffusion-Sprachmodelle (DLM). Anstatt sequenziell zu arbeiten, erzeugt dieses Verfahren mehrere Token parallel und verfeinert sie in iterativen Schritten. Dieser Ansatz ermöglicht nicht nur eine deutlich schnellere Generierung durch bessere Auslastung der GPU-Hardware, sondern erlaubt auch die Revision bereits erstellter Inhalte und das Lückenfüllen in Texten. Ein wesentlicher Vorteil ist die flexible Steuerung des Rechenaufwands: Durch die Reduzierung der Verfeinerungsschritte lassen sich die Anforderungen zur Laufzeit gezielt anpassen. Die Modellfamilie umfasst Textmodelle mit 3, 8 und 14 Milliarden Parametern sowie ein vision-sprachbasiertes Modell im 8-Milliarden-Bereich. Alle Modelle stehen unter der NVIDIA Nemotron Open Model License oder der NVIDIA Source Code License zur Verfügung, was breite Forschungs- und kommerzielle Nutzung ermöglicht. Neben Basismodellen wurden auch speziell auf Chat-Anweisungen abgestimmte Varianten veröffentlicht. Der Trainingscode ist über das NVIDIA Megatron Bridge Framework zugänglich. Ein zentrales Designmerkmal ist die Vereinigung autoregressiver und diffusion-basierter Fähigkeiten in einem einzigen Modell. Es unterstützt drei Generierungsmodi: Den klassischen autoregressiven Modus für maximale Kompatibilität, den Diffusionsmodus für schrittweise Blockgenerierung sowie den Selbst-Spekulationsmodus. Letzterer nutzt Diffusion, um Kandidaten-Tokens vorzuschlagen, und verifiziert diese anschließend mit autoregressiver Dekodierung. Diese Kombination kombiniert die Geschwindigkeit der Diffusions-Drafte mit der Zuverlässigkeit traditioneller Modelle. Die Auswahl des Modus erfolgt rein durch eine Konfigurationsänderung zur Laufzeit, ohne Änderungen am Anwendungscode. Leistungstests zeigen erhebliche Verbesserungen. Das 8-Milliarden-Modell von Nemotron-Labs Diffusion erzielt eine durchschnittliche Genauigkeit, die um 1,2 Prozentpunkte über der von Qwen3 8B liegt. In Bezug auf die Inferenzgeschwindigkeit, gemessen in Token pro Vorwärtsdurchlauf, liegt der Diffusionsmodus etwa 2,6-mal höher als bei autoregressiven Modellen. Der Selbst-Spekulationsmodus erreicht sogar das 6,4-Fache der Geschwindigkeit bei vergleichbarer Genauigkeit. Das Training der Modelle basiert auf der Erkenntnis, dass vorhandene autoregressive Modelle durch weiteres Training und eine Anpassung der Aufmerksamkeitsmechanismen in Diffusionsmodelle umgewandelt werden können. Das Modell wurde zunächst mit 1,3 Billionen Token vorab trainiert und anschließend in einer Phase des überwachten Feinabstimmens mit zusätzlichen 45 Milliarden Token verfeinert. Die Integration in die Inferenz-Engine SGLang ist geplant und wird demnächst über eine GitHub-Abfrage unterstützt. Entwickler können denselben Checkpoint dann in drei verschiedenen Modi bedienen, wobei die Auswahl durch eine einzige Zeile in der Algorithmus-Konfiguration gesteuert wird. Mit Nemotron-Labs Diffusion bietet NVIDIA Entwicklern nun einen pragmatischen Weg, um Textgenerierung schneller zu machen, ohne dabei auf bewährte Arbeitsabläufe verzichten zu müssen.

Verwandte Links