HyperAIHyperAI

Command Palette

Search for a command to run...

Microsoft déploie le premier supercalculateur au monde pour OpenAI sur Azure

Microsoft a annoncé la mise en œuvre de sa première infrastructure massive d’intelligence artificielle, surnommée « usine IA » par Nvidia, sur ses centres de données Azure. Cette réalisation, dévoilée par le PDG Satya Nadella via un tweet contenant une vidéo, marque le lancement de la première série de clusters à grande échelle utilisant les puces NVIDIA Blackwell Ultra. Ces systèmes, intégrés dans des racks NVL72, regroupent plus de 4 600 GPU Blackwell Ultra connectés via la technologie de réseau InfiniBand Quantum-X800, permettant une communication ultra-rapide et une scalabilité exceptionnelle. Conçus spécifiquement pour les charges de travail d’inférence les plus exigeantes d’OpenAI, ces clusters font partie de la nouvelle série de machines virtuelles NDv6 GB300 d’Azure. Chaque rack, refroidi par liquide, intègre 72 GPU Blackwell Ultra et 36 CPU Grace dans une unité cohérente, offrant 37 téraoctets de mémoire rapide et une performance de 1,44 exaflops en calcul FP4. Cette architecture permet de traiter des modèles d’IA à des échelles sans précédent, notamment des modèles à des centaines de trillions de paramètres, essentiels pour les systèmes d’IA raisonnante et agente. La réussite de cette infrastructure repose sur une collaboration stratégique de longue date entre Microsoft et NVIDIA. Le réseau InfiniBand Quantum-X800, basé sur les cartes ConnectX-8 SuperNIC et les commutateurs Quantum-X800, assure une bande passante de 800 Gb/s par GPU, avec des fonctionnalités avancées comme le routage adaptatif, le contrôle de congestion basé sur la télémétrie et le protocole SHARP v4 pour optimiser les opérations à grande échelle. À l’intérieur de chaque rack, le switch NVLink de 5e génération fournit 130 téraoctets/seconde de bande passante directe entre tous les GPU, créant un espace mémoire partagé unifié. Cette réalisation n’est pas seulement technologique : elle est aussi stratégique. Elle intervient alors qu’OpenAI, partenaire clé de Microsoft, a récemment signé des accords majeurs avec Nvidia et AMD pour construire ses propres centres de données, avec des investissements estimés à 1 trillion de dollars d’ici 2025. Microsoft veut ainsi souligner qu’il dispose déjà d’une infrastructure mondiale, avec plus de 300 centres de données dans 34 pays, et qu’il est « unique en son genre » pour répondre aux besoins de l’IA de pointe. Le succès repose sur une réinvention complète des centres de données : refroidissement liquide sur mesure, distribution d’énergie optimisée, logiciels d’orchestration et de stockage révisés. Cette infrastructure est également soutenue par la plateforme complète NVIDIA AI, incluant des bibliothèques de communication collective et des compilateurs comme Dynamo pour maximiser les performances d’inférence. Dans les benchmarks MLPerf Inference v5.1, les systèmes GB300 NVL72 ont surpassé les architectures Hopper, offrant jusqu’à 5 fois plus de débit par GPU sur des modèles comme DeepSeek-R1 et des performances leader sur des modèles récents comme Llama 3.1 405B. Microsoft prévoit de déployer des centaines de milliers de GPU Blackwell Ultra à travers le monde. L’entreprise continuera à partager davantage de détails lors de la conférence TechCrunch Disrupt, où son CTO Kevin Scott interviendra du 27 au 29 octobre à San Francisco. Cette avancée marque un tournant décisif dans la construction de l’infrastructure nécessaire à l’ère de l’IA de pointe.

Liens associés