NVIDIA Blackwell domine MLPerf Training 6.0
NVIDIA s'impose largement lors des benchmarks MLPerf Training 6.0, la référence industrielle pour évaluer les performances d'entraînement des modèles d'intelligence artificielle. La plateforme Blackwell de l'entreprise a remporté toutes les catégories, offrant le temps d'entraînement le plus rapide sur les sept tests, y compris deux nouvelles charges de travail à architecture à experts mixtes, connue sous le nom de MoE : DeepSeek-V3 671B et GPT-OSS-20B. Cette réussite découle d'une optimisation approfondie entre les puces, les réseaux et les logiciels. Les systèmes GB200 et GB300 NVL72 exploitent les commutateurs NVLink de cinquième génération pour interconnecter 72 processeurs graphiques en une seule unité de calcul unifiée. Cette architecture est indispensable pour gérer la communication intensive requise par les modèles MoE, qui doivent répartir les données entre différents sous-réseaux spécialisés. La nouvelle génération GB300 NVL72 affiche des gains de performance allant jusqu'à 1,6 fois par rapport au GB200, grâce à une densité de calcul supérieure, une mémoire élargie et l'intégration de la méthode d'entraînement en précision réduite NVFP4. NVIDIA a également repoussé les limites de l'évolutivité en mobilisant 8 192 GPUs pour le modèle DeepSeek-V3, établissant un record pour cette édition des benchmarks. Au-delà de la vitesse, la plateforme privilégie la fiabilité nécessaire aux entraînements industriels pouvant s'étaler sur plusieurs semaines. Le matériel est testé à plus de trente étapes avant le déploiement pour éliminer les défauts potentiels. Une fois en fonctionnement, un moteur de surveillance détecte et contourne automatiquement les pannes matérielles, tandis que le réseau adaptatif reroute les données en quelques millisecondes. En cas d'interruption, un système de récupération avancé permet au cluster de reprendre l'entraînement directement à partir du dernier point de sauvegarde, évitant de relancer entièrement la tâche. Les partenaires de l'écosystème NVIDIA tirent déjà parti de ces avancées. Des organisations comme CoreWeave, Cohere, Midjourney, Google Cloud et Nebius intègrent ces infrastructures pour accélérer leurs développements respectifs. Ces dernières observent des gains de vitesse allant de 30 à 300 %, facilitant la formation de modèles plus complexes et le déploiement de services IA à grande échelle. En combinant rapidité, évolutivité et résilience, la plateforme Blackwell consolide la position de NVIDIA comme infrastructure de référence pour l'industrie, permettant aux chercheurs et aux entreprises de réduire les coûts computationnels et d'anticiper la commercialisation de leurs technologies.
