HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Tag
LLM
Textgenerierung

DFlash beschleunigt Inferenz auf NVIDIA Blackwell um 15x

Forscher und das NVIDIA-Ökosystem haben mit DFlash eine neue Methode zum spekulativen Decoding vorgestellt, die die Inferenzleistung von Large Language Models auf NVIDIA Blackwell-GPUs um bis zu das 15-Fache steigert. Angesichts der wachsenden Komplexität multiagentischer KI-Workflows steigt der Bedarf an extrem niedriger Latenz. Herkömmliche autoregressive Modelle erzeugen Token sequenziell, was GPUs oft auslastungsbedingt limitiert. DFlash umgeht dieses Problem durch ein leichtgewichtiges Block-Diffusion-Modell, das im Drafting-Phase nicht einzelne Tokens, sondern ganze Blätter zukünftiger Tokens parallel vorhersagt. Diese Blöcke werden anschließend vom Hauptmodell verifiziert, was die GPU-Auslastung optimiert und die Interaktivität bei gleicher Konkurrenz erheblich erhöht. Auf Basis eines Systems mit acht NVIDIA DGX B300-GPUs demonstrierte DFlash bei Modellen wie gpt-oss-120b im produktionsreifen Latenzbereich einen Durchsatzanstieg um mehr als das 15-Fache gegenüber rein autoregressivem Decoding. Die Blackwell-Architektur nutzt diese Parallelisierung effizient aus, da sie mit 15 PFLOPS NVFP4-Compute und hoher Chip-zu-Chip-Datenübertragungsrate speziell für massiv parallele Berechnungen ausgelegt ist. Auch bei kleineren Modellen wie Llama 3.1 8B oder Gemma 4 31B verdoppelt bis vervierfacht sich die Performance im Vergleich zu etablierten Ansätzen wie EAGLE-3, was sich in Benchmark-Suites für Coding, Reasoning und Multilingualität bestätigte. Die Integration in bestehende Produktionsumgebungen ist ohne Refactoring der Anwendungslayer möglich. Über die Open-Source-Frameworks vLLM, SGLang und TensorRT-LLM lässt sich DFlash direkt über Konfigurationsanpassungen aktivieren. Die Research-Community hat im Februar 2026 bereits 20 vortrainierte DFlash-Checkpoints auf Hugging Face veröffentlicht, die Modelle wie Qwen, Llama, Gemma und Kimi abdecken und sowohl für Blackwell- als auch für Hopper-Plattformen optimiert sind. Damit adressiert die Technologie ein zentrales Problem der aktuellen KI-Infrastruktur: die Balance zwischen hohem Throughput und strikten Latenzvorgaben. Mit der schnellen Verbreitung im Open-Source-Ökosystem etabliert sich DFlash als praktikabler Standard für die nächste Generation effizienter LLM-Bereitstellung.

Verwandte Links

DFlash beschleunigt Inferenz auf NVIDIA Blackwell um 15x | Aktuelle Beiträge | HyperAI