HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA Blackwell domine les benchmarks InferenceMAX de SemiAnalysis

L’intelligence artificielle évolue de réponses ponctuelles vers un raisonnement complexe, ce qui fait exploser la demande en inférence et redéfinit ses enjeux économiques. Le nouveau benchmark indépendant InferenceMAX v1, lancé par SemiAnalysis, mesure pour la première fois le coût total de calcul dans des scénarios réels. Les résultats révèlent une domination nette de la plateforme NVIDIA Blackwell, offrant des performances exceptionnelles et une efficacité optimale pour les « usines d’IA ». Un investissement de 5 millions de dollars dans un système NVIDIA GB200 NVL72 peut générer jusqu’à 75 millions de dollars de revenus en tokens, soit un retour sur investissement de 15 fois. « L’inférence est là où l’IA crée de la valeur chaque jour », affirme Ian Buck, vice-président chez NVIDIA. Ce succès repose sur une approche complète, intégrant matériel, logiciel et écosystème ouvert. InferenceMAX v1 évalue des modèles populaires comme gpt-oss-120b, Llama 3.3 70B et DeepSeek-R1 sur différentes précisions (FP8, NVFP4) et configurations, incluant des séquences variables pour refléter la réalité des déploiements. Il teste aussi bien les architectures mononœud que multi-nœuds avec parallélisme d’experts (EP), et publie quotidiennement des résultats automatisés via CI. Cette transparence permet à tous de reproduire les benchmarks. NVIDIA Blackwell marque une avancée décisive par rapport à la génération Hopper. Grâce à des cœurs Tensor de 5e génération, une bande passante NVLink de 1 800 Go/s, une mémoire HBM3e et le format de précision NVFP4, le coût par million de tokens est réduit de 15 fois. Sur Llama 3.3 70B, la plateforme atteint plus de 10 000 TPS par GPU à 50 TPS/utilisateur, soit 4 fois plus que l’H200. Pour gpt-oss-120b, l’optimisation continue du framework TensorRT-LLM, combinée à des techniques comme le décodage spéculatif (Eagle3-v2), a triplé la throughput par GPU, passant de 6 000 à 30 000 tokens/s. L’architecture GB200 NVL72, avec ses 72 GPU interconnectés par NVLink Switch, permet une communication ultra-rapide, essentielle pour les modèles à experts mixtes (MoE). L’inférence désagrégée via Dynamo sépare les phases de pré-remplissage et de décodage, optimisant chaque phase indépendamment. TensorRT-LLM évite l’inefficacité des GPU inactifs en répartissant intelligemment les experts, garantissant une utilisation maximale du matériel. NVIDIA collabore activement avec les communautés open source : FlashInfer, SGLang, vLLM. Des optimisations sont apportées aux noyaux d’attention, de communication, de GEMM et de MoE, ainsi qu’au runtime (scheduling asynchrone, fusion de graphes). Ces efforts accélèrent la performance sur les frameworks les plus utilisés. Enfin, InferenceMAX v1 utilise une frontière de Pareto pour évaluer les compromis entre throughput, latence, coût et efficacité énergétique. Blackwell excelle sur l’ensemble du spectre, ce qui est crucial pour les usines d’IA confrontées à des exigences variées. Sa capacité à maintenir un coût bas même à haute interactivité (jusqu’à 400 TPS/utilisateur) rend viables des scénarios complexes comme les systèmes multi-agents. En résumé, la combinaison d’une conception matérielle et logicielle extrême, d’optimisations continues et d’un écosystème ouvert fait de NVIDIA Blackwell la référence actuelle en inférence, offrant une performance inégalée et une rentabilité transformée pour l’IA à grande échelle.

Liens associés

NVIDIA Blackwell domine les benchmarks InferenceMAX de SemiAnalysis | Articles tendance | HyperAI