NVIDIA Blackwell Ultra révolutionne l’IA agente avec 50x plus de performance et 35x moins de coûts
La plateforme NVIDIA Blackwell Ultra, désormais intégrée dans les systèmes GB300 NVL72, marque une avancée décisive pour l’intelligence artificielle agente, notamment dans les applications de programmation. Selon de nouvelles données, cette architecture permet jusqu’à 50 fois plus de performances par mégawatt et réduit les coûts par jeton de 35 fois par rapport à la plateforme Hopper. Ces gains s’expliquent par une innovation combinée sur les puces, l’architecture système et le logiciel, permettant une optimisation extrême des charges de travail d’IA. Les agents intelligents et les assistants de codage connaissent une croissance exponentielle, passant de 11 % à près de 50 % des requêtes liées au développement logiciel, selon le rapport State of Inference d’OpenRouter. Ces applications nécessitent à la fois une faible latence pour garantir une réactivité en temps réel dans les workflows multétapes et une grande capacité de contexte pour raisonner sur des bases de code étendues. La plateforme Blackwell Ultra, combinée aux optimisations logicielles de NVIDIA — notamment TensorRT-LLM, Dynamo, Mooncake et SGLang — répond précisément à ces exigences. Les systèmes GB200 NVL72, déjà déployés à grande échelle, ont démontré plus de 10 fois plus de jetons par watt que les systèmes Hopper, réduisant ainsi les coûts par jeton de 90 %. Depuis, les améliorations logicielles ont permis une augmentation de 5 fois des performances sur les charges de travail à faible latence en seulement quatre mois. Le passage au GB300 NVL72, équipé du GPU Blackwell Ultra, amplifie ces gains : jusqu’à 50 fois plus de performance par mégawatt, et jusqu’à 35 fois moins de coût par million de jetons, surtout dans les cas à faible latence. Pour les charges de travail à long contexte — comme l’analyse de bases de code de plusieurs dizaines de milliers de jetons — le GB300 NVL72 offre un avantage supplémentaire : jusqu’à 1,5 fois moins de coût par jeton par rapport au GB200 NVL72. Cela s’explique par une performance de calcul NVFP4 accrue de 1,5 fois et un traitement d’attention deux fois plus rapide, permettant aux agents de traiter efficacement des contextes complexes. Des acteurs majeurs comme Microsoft, CoreWeave et Oracle Cloud Infrastructure (OCI) ont déjà déployé ces systèmes en production pour des applications agentes et d’assistance interactive. Chen Goldberg, vice-président senior d’ingénierie chez CoreWeave, souligne que la plateforme Grace Blackwell NVL72 répond directement aux défis de performance et d’efficacité énergétique, permettant une meilleure économie de jetons et une expérience d’inference plus prévisible à grande échelle. À l’horizon, la plateforme NVIDIA Vera Rubin NVL72, qui regroupe six puces avancées pour former un superordinateur IA, promet une nouvelle rupture : jusqu’à 10 fois plus de débit par mégawatt pour les modèles Mixture-of-Experts (MoE), réduisant les coûts de 90 %, et permettant de former des modèles de pointe avec seulement un quart du nombre de GPU requis sur Blackwell. Ces avancées illustrent la stratégie intégrée de NVIDIA : une synergie constante entre matériel, logiciel et architecture, qui redéfinit les limites du calcul IA et rend possible l’émergence d’applications agentes à grande échelle, rapides et économiquement viables.
