HyperAI

Forscher und das NVIDIA-Ökosystem haben mit DFlash eine neue Methode zum spekulativen Decoding vorgestellt, die die Inferenzleistung von Large Language Models auf NVIDIA Blackwell-GPUs um bis zu das 15-Fache steigert. Angesichts der wachsenden Komplexität multiagentischer KI-Workflows steigt der Bedarf an extrem niedriger Latenz. Herkömmliche autoregressive Modelle erzeugen Token sequenziell, was GPUs oft auslastungsbedingt limitiert. DFlash umgeht dieses Problem durch ein leichtgewichtiges Block-Diffusion-Modell, das im Drafting-Phase nicht einzelne Tokens, sondern ganze Blätter zukünftiger Tokens parallel vorhersagt. Diese Blöcke werden anschließend vom Hauptmodell verifiziert, was die GPU-Auslastung optimiert und die Interaktivität bei gleicher Konkurrenz erheblich erhöht. Auf Basis eines Systems mit acht NVIDIA DGX B300-GPUs demonstrierte DFlash bei Modellen wie gpt-oss-120b im produktionsreifen Latenzbereich einen Durchsatzanstieg um mehr als das 15-Fache gegenüber rein autoregressivem Decoding. Die Blackwell-Architektur nutzt diese Parallelisierung effizient aus, da sie mit 15 PFLOPS NVFP4-Compute und hoher Chip-zu-Chip-Datenübertragungsrate speziell für massiv parallele Berechnungen ausgelegt ist. Auch bei kleineren Modellen wie Llama 3.1 8B oder Gemma 4 31B verdoppelt bis vervierfacht sich die Performance im Vergleich zu etablierten Ansätzen wie EAGLE-3, was sich in Benchmark-Suites für Coding, Reasoning und Multilingualität bestätigte. Die Integration in bestehende Produktionsumgebungen ist ohne Refactoring der Anwendungslayer möglich. Über die Open-Source-Frameworks vLLM, SGLang und TensorRT-LLM lässt sich DFlash direkt über Konfigurationsanpassungen aktivieren. Die Research-Community hat im Februar 2026 bereits 20 vortrainierte DFlash-Checkpoints auf Hugging Face veröffentlicht, die Modelle wie Qwen, Llama, Gemma und Kimi abdecken und sowohl für Blackwell- als auch für Hopper-Plattformen optimiert sind. Damit adressiert die Technologie ein zentrales Problem der aktuellen KI-Infrastruktur: die Balance zwischen hohem Throughput und strikten Latenzvorgaben. Mit der schnellen Verbreitung im Open-Source-Ökosystem etabliert sich DFlash als praktikabler Standard für die nächste Generation effizienter LLM-Bereitstellung.

Verwandte Links

Verwandte Links

Verwandte Links

Materials AI Bewegt Sich Auf Eine "erklärbare Ära" Zu: Ein Japanisches Team Knackt Die Blackbox Der Hochdimensionalen Spektroskopie Und Identifiziert Schlüsselmerkmale Zur Entdeckung Neuer Materialien.

Materials AI Bewegt Sich Auf Eine "erklärbare Ära" Zu: Ein Japanisches Team Knackt Die Blackbox Der Hochdimensionalen Spektroskopie Und Identifiziert Schlüsselmerkmale Zur Entdeckung Neuer Materialien.

Command Palette

DFlash beschleunigt Inferenz auf NVIDIA Blackwell um 15x

Verwandte Links

Command Palette

DFlash beschleunigt Inferenz auf NVIDIA Blackwell um 15x

Verwandte Links

Command Palette

DFlash beschleunigt Inferenz auf NVIDIA Blackwell um 15x

Verwandte Links

Materials AI Bewegt Sich Auf Eine "erklärbare Ära" Zu: Ein Japanisches Team Knackt Die Blackbox Der Hochdimensionalen Spektroskopie Und Identifiziert Schlüsselmerkmale Zur Entdeckung Neuer Materialien.

Materials AI Bewegt Sich Auf Eine "erklärbare Ära" Zu: Ein Japanisches Team Knackt Die Blackbox Der Hochdimensionalen Spektroskopie Und Identifiziert Schlüsselmerkmale Zur Entdeckung Neuer Materialien.