HyperAIHyperAI

Command Palette

Search for a command to run...

Nvidia dévoile Vera Rubin : la plateforme IA et HPC la plus complexe au monde, promettant un bond en avant pour l'inference et l'entraînement d'agentic AI

Nvidia dévoile sa plateforme Vera Rubin, l’une des architectures de calcul les plus complexes jamais conçues pour les centres de données, marquant une avancée majeure dans le domaine de l’intelligence artificielle (IA) et du calcul haute performance (HPC). Prévue pour son lancement en fin 2025, cette plateforme repose sur une intégration serrée de neuf composants distincts, chacun optimisé pour des charges de travail spécifiques. Elle constitue une évolution décisive par rapport aux générations précédentes, notamment Grace et Blackwell, en combinant puissance, efficacité énergétique et scalabilité à une échelle inédite. Sur le plan matériel, Vera Rubin repose sur un CPU personnalisé, le Vera, doté de 88 cœurs Armv9.2 (appelés internes Olympus), avec un multithreading simultané 2-way, permettant jusqu’à 176 threads. Contrairement au CPU Grace (basé sur des cœurs Neoverse V2), le Vera intègre des extensions avancées comme SVE2, FP8/BF16, chiffrement et gestion de la mémoire. Son débit mémoire atteint 1,2 To/s, soit une augmentation de 20 % par rapport à Grace, grâce à des modules LPDDR5X SOCAMM2. La liaison cohérente entre CPU et GPU utilise NVLink-C2C, offrant désormais une bande passante bidirectionnelle de 1,8 To/s, contre 900 Go/s sur Grace. Le design multi-die du Vera, visible à travers des joints internes, suggère une architecture modulaire, probablement reposant sur une technologie de packaging CoWoS-L de TSMC. Le cœur de la plateforme réside dans le GPU Rubin, dont la version R200 repose sur deux tuiles de calcul en 3 nm TSMC, deux tuiles I/O et 288 Go de mémoire HBM4 à 6,4 GT/s, offrant environ 13 To/s de bande passante. Chaque GPU Rubin promet jusqu’à 50 PFLOPS en FP4 et 16 PFLOPS en FP8, soit une amélioration de 3,3 et 1,6 fois par rapport au Blackwell Ultra. Une version ultérieure, Rubin Ultra (prévue pour 2027), doublera les performances en passant à quatre tuiles de calcul, atteignant 100 PFLOPS en FP4 et 1 To de mémoire HBM4E avec 32 To/s de bande passante, mais à un coût énergétique plus élevé (3,6 kW par GPU), nécessitant un nouveau rack Kyber et un système de refroidissement liquide. Le Rubin CPX, nouveau sur la scène, est un accélérateur dédié à l’inférence, particulièrement efficace pour les phases de préparation de contexte (prefill) dans les modèles à très longue portée. Il utilise 128 Go de GDDR7, plus économique et moins énergivore que l’HBM4, et atteint 30 NVFP4 PFLOPS. Intégré dans les systèmes NVL144 CPX, il permet d’optimiser la répartition des tâches via le logiciel Dynamo, qui orchestre dynamiquement les charges entre GPU standard et CPX. Le BlueField-4 DPU, intégré dans de nombreux systèmes, décharge les tâches réseau, de stockage et de sécurité du CPU, avec un CPU Grace à 64 cœurs, une interface réseau à 800 Gb/s et une prise en charge de DOCA. Il réduit la latence et améliore l’efficacité du flux de données vers les GPU. Pour la connectivité, NVLink 6.0 (2026) double la bande passante par lien à 3,6 To/s, permettant une connexion à 28,8 To/s dans un rack NVL144. En 2027, NVLink 7.0 étendra cette capacité à 144 ports par commutateur. La connectivité à grande échelle repose sur des solutions photoniques : Spectrum-X (Ethernet) et Quantum-CX9 (InfiniBand), basées sur la plateforme COUPE de TSMC, offrant jusqu’à 1,6 To/s par port. Le ConnectX-9, une nouvelle SuperNIC, permet des transferts zéro-copie entre GPU et réseau via GPUDirect Async et NIXL, réduisant fortement la charge CPU. Sur le plan logiciel, la plateforme est optimisée pour les précisions FP4/FP6, les contextes de million de tokens et les charges multi-modales. Des outils comme Smart Router, GPU Planner et NCCL 2.24 améliorent l’efficacité des modèles agents et réduisent la latence des communications inter-GPU. En résumé, Vera Rubin représente une révolution architecturale, combinant une puissance de calcul sans précédent, une gestion fine des ressources et une connectivité ultra-rapide. Elle s’impose comme la référence pour les centres de données d’IA de nouvelle génération, bien que ses exigences énergétiques et thermiques posent des défis d’infrastructure. Des experts du secteur soulignent que cette plateforme pourrait accélérer le déploiement de modèles agents et de systèmes de conversation à très longue portée, tout en ouvrant la voie à des architectures plus décentralisées et plus efficaces. Nvidia, déjà leader dans le marché des accélérateurs, renforce son positionnement comme moteur de l’innovation en IA et HPC.

Liens associés