Oracle obtient en premier les GPU MI450 AMD pour son supercalculateur à 50 000 cartes
Cette semaine, Oracle OpenWorld, CloudWorld et AI World rassemblent les acteurs majeurs de l’informatique, et Oracle a profité de l’événement pour annoncer un partenariat stratégique avec AMD visant à déployer le plus grand cluster d’intelligence artificielle au monde sur son cloud public, Oracle Cloud Infrastructure (OCI). L’objectif : répondre à la demande croissante de puissance de calcul pour les modèles d’IA à très grande échelle. Le projet prévoit le déploiement de 50 000 sockets GPU AMD Instinct MI450 de la série Altair, avec un lancement prévu au troisième trimestre 2026, suivi d’une expansion en 2027 et au-delà. Ces GPU, basés sur la technologie 2 nm de TSMC, sont conçus pour des architectures à grande échelle, notamment les racks Helios développés par AMD en collaboration avec Meta Platforms, OpenAI et Oracle. Bien que deux variantes soient attendues — le MI450 (pour nœuds classiques) et le MI450X (pour les racks doubles) — Oracle a indiqué privilégier la version avec la plus grande capacité mémoire HBM4. Le MI450, qui pourrait offrir jusqu’à 432 Go de mémoire HBM4 par GPU, serait donc plus probable que le MI450X, dont la capacité attendue est de 288 Go. Cette décision reflète l’approche personnalisée d’Oracle, qui cherche à maximiser la capacité de stockage des paramètres de modèles, essentielle pour l’entraînement de grands modèles. Le cluster, basé sur la conception Helios, devrait contenir environ 700 racks, chacun intégrant 72 GPU, des processeurs EPYC « Venice » futurs et des accélérateurs réseau Pensando « Vulcano ». La densité de GPU par CPU pourrait atteindre un ratio de 4:1, typique des systèmes HPC. La bande passante mémoire HBM4 atteindra 1,4 pétabit/s, avec une puissance de calcul de 2,9 exaflops en précision FP4, et 1,45 exaflops en FP8 — des performances exceptionnelles pour les tâches d’IA. AMD utilisera la technologie UALink over Ethernet (UALoE) pour interconnecter les GPU via une version étendue d’Infinity Fabric sur Ethernet, probablement en s’appuyant sur des ASICs de Cisco ou Marvell, ou même sur des DPUs Pensando pour rester dans l’écosystème AMD. Le réseau Acceleron, développé par Oracle, joue un rôle clé en intégrant les DPUs comme commutateurs, éliminant une couche matérielle dans les réseaux à grande échelle. Cette architecture permet une communication ultra-rapide entre les GPU, essentielle pour le scale-out efficace des modèles d’IA. Le coût total du projet, estimé entre 3,5 et 4 milliards de dollars, inclut les GPU, les CPU, les DPUs, le stockage et le réseau. En raison de la rareté des GPU et de la forte demande, Oracle ne devrait pas bénéficier de rabais significatifs. Ce cluster, qui s’ajoutera aux 30 000 GPU MI355X déjà disponibles sur OCI, sera accessible à tous les clients Oracle, y compris pour des usages non liés à OpenAI, malgré les contrats existants avec ce dernier. Cette initiative positionne Oracle comme un acteur majeur dans le paysage de l’infrastructure IA, en rivalisant directement avec les solutions Nvidia, tout en proposant une alternative basée sur une architecture ouverte et une stratégie d’approvisionnement diversifiée.
