NVFP4 KV Cache : Doubler la longueur de contexte et réduire de 50 % la mémoire sur les GPU Blackwell
La quantification représente l’un des leviers les plus puissants pour optimiser l’inférence à grande échelle des modèles linguistiques. En réduisant la précision des poids, des activations et du cache KV, il est possible de diminuer à la fois la consommation mémoire et les coûts de calcul, ce qui améliore directement le débit, la latence et la longueur maximale du contexte supportée. Ce billet présente une nouvelle avancée : la quantification du cache KV en NVFP4, une nouvelle représentation de données conçue pour tirer parti des GPU NVIDIA Blackwell. Cette technique réduit de jusqu’à 50 % la taille mémoire du cache KV, permettant de doubler le budget contextuel, d’augmenter les tailles de lot, de prolonger les séquences traitées et d’améliorer les taux de succès dans le cache. Ces gains s’accompagnent d’une perte d’exactitude inférieure à 1 % sur des benchmarks couvrant la génération de code, les connaissances générales et les tâches à long contexte. Le cache KV est essentiel dans les modèles de langage autoregressifs, où chaque nouveau token est généré en tenant compte de tous les précédents. Sans optimisation, chaque étape de génération nécessiterait de recalculer les vecteurs clés et valeurs pour tous les tokens passés — une opération redondante et coûteuse en calcul. Le cache KV résout ce problème en stockant une seule fois ces vecteurs dans une mémoire fixe. Lorsqu’un token est généré, les vecteurs clés et valeurs des précédents sont récupérés directement du cache au lieu d’être recalculés. Ce mécanisme permet une grande efficacité, mais dépend fortement du taux de succès du cache : un taux élevé permet de préserver les gains computationnels, tandis qu’un taux bas entraîne des re-calculs coûteux. La phase de pré-remplissage (prefill) consiste à traiter l’ensemble de la séquence d’entrée en calculant les K/V pour chaque token, puis à les stocker dans le cache. La phase de décodage génère ensuite les tokens un par un, en réutilisant les K/V du cache et en ajoutant les nouveaux. L’optimisation NVFP4 consiste à quantifier le cache KV de sa précision native 16 bits à 4 bits, tout en conservant une déquantification en FP8 avant les opérations d’attention. Cette approche réduit drastiquement la consommation mémoire HBM, permettant de stocker deux fois plus de contexte sur une même GPU. Cela améliore les taux de succès du cache, réduit les évictions et diminue la latence de première réponse (TTFT) jusqu’à 3 fois par rapport au cache FP8, tout en augmentant les taux de succès de 20 %. Les tests sur des modèles comme Qwen3-Coder-480B-A35B montrent que NVFP4 maintient une précision quasi identique à celle du BF16 et du FP8 sur des benchmarks exigeants tels que LiveCodeBench, MMLU-PRO, MBPP et Ruler 64K. L’exactitude reste particulièrement robuste pour les tâches de génération de code et les raisonnements longs, où les erreurs numériques s’accumulent facilement. En comparaison avec MXFP4, NVFP4 offre jusqu’à 5 % de gain en précision sur Llama 3.3 70B, grâce à une échelle de blocs plus fine et à des facteurs d’échelle en E4M3 plus précis, réduisant ainsi l’erreur de déquantification. NVFP4 s’inscrit dans la stratégie d’optimisation logicielle-hardware de NVIDIA, complétant d’autres avancées comme le routage intelligent du cache, le transfert de charge dans Dynamo, et le parallélisme d’experts large (Wide EP) dans TensorRT-LLM. Sur le plan matériel, elle exploite pleinement les capacités de mise à l’échelle des NVL72 et des interconnexions NVLink, rendant possible le traitement de séquences très longues, de grands modèles experts et d’inférences à haute concurrence sans compromis sur la qualité. Pour adopter cette technologie, NVIDIA recommande d’utiliser les exemples de code et notebooks du Model Optimizer, qui permettent une quantification post-entraînement (PTQ) ou une formation avec prise en compte de la quantification (QAT) via une simple modification de configuration. Cette avancée marque une étape clé vers des systèmes d’inférence plus efficaces, plus scalables et plus précis.
