HyperAI

L’expansion exponentielle de la complexité des modèles d’intelligence artificielle, passant de millions à des milliards de paramètres, a rendu nécessaire l’utilisation de clusters de GPU pour répondre aux exigences computationnelles croissantes. L’adoption des architectures mixture-of-experts (MoE) et du raisonnement IA à l’échelle du test (test-time scaling) accentue encore davantage ces besoins. Pour déployer efficacement l’inférence, les systèmes IA évoluent vers des stratégies de parallélisation à grande échelle, incluant le parallélisme de tenseurs, de pipelines et d’experts. Cela impose la mise en place de grands domaines de GPU interconnectés par une infrastructure de calcul à échelle mémoire et sémantique, fonctionnant comme une ressource unique de calcul et de mémoire. NVIDIA répond à ces défis grâce à son technologie NVLink et à sa solution NVLink Fusion, qui rend disponibles les capacités avancées d’interconnexion à haut débit pour des infrastructures personnalisées. Initialement lancé en 2016, NVLink a permis de dépasser les limites du PCIe en offrant une communication GPU à GPU plus rapide et une mémoire partagée unifiée. En 2018, la technologie NVLink Switch a permis une bande passante all-to-all de 300 Go/s entre 8 GPU, ouvrant la voie aux architectures de calcul à échelle. L’introduction du protocole SHARP (Scalable Hierarchical Aggregation and Reduction Protocol) a optimisé les opérations collectives, réduisant la latence et améliorant le rendement. La cinquième génération de NVLink, dévoilée en 2024, permet désormais une communication all-to-all entre 72 GPU à 1 800 Go/s, offrant une bande passante aggregate de 130 To/s — soit 800 fois plus que la première génération. Cette évolution continue, avec trois nouvelles générations annoncées chaque année, suit de près la croissance exponentielle des modèles IA. Le rendement de NVLink repose sur une combinaison de matériel et de logiciels, notamment la bibliothèque NCCL (NVIDIA Collective Communication Library), un outil open-source optimisé pour les communications GPU-GPU, intégré dans tous les principaux frameworks de deep learning. NCCL assure une bande passante proche du théorique, avec une prise en charge automatique de la topologie et des optimisations avancées. Dans les centres de calcul IA (AI factories), la performance de l’inférence est cruciale pour maximiser le revenu. L’architecture rack à 72 GPU, basée sur NVLink, permet d’optimiser le rendement dans divers cas d’usage. Les courbes de Pareto montrent l’équilibre entre débit par watt et latence, dont l’aire sous la courbe doit être maximisée. Les différences de performance observées entre configurations à échelle montante (scale-up) illustrent l’impact de l’interconnexion rapide, même lorsque la vitesse de NVLink reste constante. NVLink Fusion, lancée par NVIDIA, permet aux hyperscalers d’accéder directement aux technologies éprouvées de NVLink à échelle montante. Elle offre un accès à des composants clés : SERDES NVLink, chiplets, commutateurs NVLink, ainsi qu’une architecture rack à haute densité incluant le spine NVLink, les câbles cuivre, des innovations mécaniques, des systèmes de refroidissement liquide et une éco-système de production prête. Cette solution modulaire, basée sur le standard OCP MGX, permet l’intégration de CPU ou XPU personnalisés, ainsi que de NIC, DPU ou commutateurs de mise à l’échelle. Pour les XPU personnalisés, NVLink Fusion utilise l’interface UCIe (Universal Chiplet Interconnect Express), un standard ouvert, avec un chiplet pont fourni par NVIDIA pour une intégration performante et flexible. Pour les CPU personnalisés, l’IP NVLink-C2C est recommandée pour une connectivité optimale avec les GPU NVIDIA, permettant l’accès à des centaines de bibliothèques CUDA-X. L’éco-système associé, composé de partenaires en silicium, IP, systèmes et composants d’infrastructure, assure une mise en œuvre rapide, avec des systèmes comme le GB200 NVL72 et GB300 NVL72 déjà produits à grande échelle. En somme, NVLink Fusion représente une avancée majeure pour le calcul IA, combinant des décennies d’expertise, une architecture ouverte et une éco-système mature pour offrir des performances inégalées et une personnalisation sans précédent dans les infrastructures de raisonnement IA.

NVIDIA NVLink Fusion révolutionne l’inference IA avec une scalabilité sans précédent

Related Links