HyperAIHyperAI

Command Palette

Search for a command to run...

マイクロソフトがAzureで世界初のNVIDIA GB300 NVL72スーパーコンピューティングクラスターを発表、オープンAI向けにAIデータセンターの基盤を強化

マイクロソフトは、NVIDIAの最新AIチップ「Blackwell Ultra」を搭載した世界初の本格的なAI「工場」を、Azureクラウド上に展開したと発表した。このシステムは、4,600台以上のNVIDIA GB300 NVL72ラックコンピュータで構成され、NVIDIAの高速ネットワーキング技術「Quantum-X800 InfiniBand」と連携して、超大規模なAIモデルの推論と学習を可能にする。同社のCTOであるケビン・スコット氏が10月27日から29日にサンフランシスコで開催されるTechCrunch Disruptで、AIインフラの拡大戦略について発表する予定だ。 この新システムは、マイクロソフトとNVIDIAの長年の協力の成果である。特に、NVIDIAが2019年にMellanoxを69億ドルで買収したことで獲得したInfiniBand技術の優位性が、本システムのスケーラビリティを支えている。各GB300 NVL72ラックには72個のBlackwell Ultra GPUと36個のGrace CPUが統合され、1VMあたり37TBの高速メモリと1.44エクサフロップスのFP4演算性能を実現。これにより、数百兆パラメータ規模の次世代AIモデルや、自律的なAIエージェント(agentic AI)の処理が可能になる。 性能面では、MLPerf Inference v5.1ベンチマークで、Hopperアーキテクチャ比で6710億パラメータのDeepSeek-R1モデルでGPU1台あたり最大5倍のスループットを達成。Llama 3.1 405Bモデルなど新規ベンチマークでもトップ性能を記録。NVIDIAの「NVFP4」フォーマットや「Dynamo」コンパイラ技術が、学習と推論の両面で大幅な性能向上をもたらしている。 ネットワーキング面では、ラック内では第5世代NVLinkスイッチが130TB/sの全対全帯域幅を実現し、ラック全体を一つの巨大なアクセラレータとして統合。ラック間接続にはQuantum-X800 InfiniBandが採用され、各GPUに800Gb/sの帯域を確保。さらに、適応型ルーティング、帯域制御、SHARP v4による分散演算最適化により、大規模トレーニング時の効率性と安定性が飛躍的に向上している。 マイクロソフトは、世界34カ国に300以上のデータセンターを保有しており、これらのAI工場を「前線AIの需要に唯一無二に応える」と強調。OpenAIがNVIDIAやAMDと2025年までに総額1兆ドル規模のデータセンター契約を締結した背景もあり、マイクロソフトは「既にインフラを備えている」という立場を明確にしている。 この展開は、AIの未来を支える基盤技術の再構築を意味する。液体冷却や電源分配、ソフトウェアスタックの再設計といった、データセンター全体の最適化が行われており、今後数年間で数十万枚のBlackwell Ultra GPUがAzure上に展開される予定だ。これにより、OpenAIをはじめとする先端AI開発企業の革新が加速すると見込まれる。

関連リンク