HyperAIHyperAI

Command Palette

Search for a command to run...

NVFP4 KV-Cache senkt Speicherbedarf um 50 % und steigert Effizienz auf NVIDIA-Blackwell-GPUs

NVIDIA hat mit der Einführung des NVFP4-KV-Cache eine bedeutende Optimierung für die Inferenz von großen Sprachmodellen vorgestellt, die insbesondere bei langen Kontexten und hohen Batch-Größen entscheidende Leistungssteigerungen ermöglicht. Durch die Quantisierung des Key-Value (KV)-Cache von 16-Bit auf 4-Bit reduziert NVFP4 den Speicherbedarf um bis zu 50 % und verdoppelt so effektiv die Kontextkapazität im Vergleich zum herkömmlichen FP8-KV-Cache. Dies führt zu deutlich höheren Cache-Hit-Raten, geringerer Latenz und erhöhter Durchsatzleistung, insbesondere bei der Prefill-Phase, wo die Zeit bis zum ersten Token (TTFT) um bis zu 300 % sinken kann. Die Technologie nutzt die NVIDIA TensorRT Model Optimizer, um post-training-Quantisierung (PTQ) oder quantization-aware training (QAT) zu unterstützen, wobei lediglich die Quantisierungs-Konfiguration angepasst werden muss. Die Dequantisierung der KV-Tensoren erfolgt vor der Aufmerksamkeitsberechnung in FP8, während die neuen K/V-Vektoren im NVFP4-Format in den Cache geschrieben werden. Der entscheidende Vorteil liegt in der verbesserten HBM-Auslastung: Durch die kompaktere Speicherung können mehr Kontextinformationen auf dem GPU-Speicher gehalten werden, was Eviction-Raten senkt und die Effizienz der autoregressiven Generierung erhöht. Dies ist besonders relevant für anspruchsvolle Anwendungen wie Code-Generierung, tiefgehende Schlussfolgerungen über lange Texte oder das Verarbeiten von Buch- oder Dokumentenskalen. Benchmark-Ergebnisse auf Modellen wie Qwen3-Coder-480B und Llama 3.3 70B zeigen eine Genauigkeitsverlust von weniger als 1 % gegenüber BF16 und FP8, selbst bei anspruchsvollen Aufgaben wie LiveCodeBench oder Ruler 64K. Besonders bemerkenswert ist die bessere Leistung von NVFP4 gegenüber MXFP4: Bei Llama 3.3 70B erreicht NVFP4 eine um 5 % höhere Genauigkeit auf MMLU, was auf eine präzisere Blockskalierung und geringere Quantisierungsfehler zurückzuführen ist. Die Integration von NVFP4 ist Teil eines umfassenden Hardware-Software-Co-Design-Ansatzes von NVIDIA, der mit TensorRT-LLM, Wide Expert Parallelism (Wide-EP), NVIDIA Dynamo und der NVLink-Infrastruktur kombiniert werden kann. Diese Synergien ermöglichen skalierbare, hochkonkurrierende Inferenz für große MoE-Modelle und komplexe Multi-Agenten-Architekturen. Die Technologie ist bereits in der Entwicklung für die Blackwell-Architektur optimiert und bietet eine praktische Lösung für die Herausforderungen der kontinuierlichen Skalierung von LLMs. Industrieexperten sehen in NVFP4 einen Meilenstein für die Effizienzsteigerung bei der Inferenz. „Mit NVFP4 wird der KV-Cache endlich so effizient wie nie zuvor – ohne Kompromisse bei der Genauigkeit“, sagt ein Spezialist für maschinelles Lernen bei einem führenden Cloud-Anbieter. NVIDIA positioniert sich damit weiterhin als führender Anbieter von inferenzoptimierten Plattformen, die durch enge Hardware-Software-Integration die Grenzen von LLMs erweitern. Die Technologie ist ab sofort in den TensorRT-LLM-Tools und Modell-Optimierer-Beispielen verfügbar, was Entwicklern eine schnelle Einführung ermöglicht.

Verwandte Links