微软Azure发布全球首个NVIDIA GB300 NVL72超算集群支持OpenAI
微软Azure今日宣布推出全新的NDv6 GB300虚拟机系列,标志着全球首个大规模部署的NVIDIA GB300 NVL72 AI系统正式投入生产。该系统由超过4,600台NVIDIA Blackwell Ultra GPU组成的集群构成,通过NVIDIA Quantum-X800 InfiniBand高速网络互联,专为运行OpenAI最前沿的AI推理任务而设计,被业界称为“AI工厂”。 这一超级计算集群的核心是液冷式、机架级的NVIDIA GB300 NVL72系统,每台机架集成72颗Blackwell Ultra GPU与36颗Grace CPU,提供高达37TB的高速内存和每虚拟机1.44 exaflops的FP4张量核心算力,构建出统一的大规模内存空间,满足推理模型、自主智能系统及复杂多模态生成式AI的极致需求。 在性能方面,NVIDIA GB300 NVL72在MLPerf Inference v5.1基准测试中表现惊人,相比Hopper架构,其在6710亿参数的DeepSeek-R1推理模型上实现每GPU高达5倍的吞吐量提升,并在Llama 3.1 405B等新模型测试中均取得领先成绩。 为支撑如此庞大的系统,微软采用双层网络架构:机架内使用第五代NVIDIA NVLink Switch,实现每台机架高达130TB/s的全互联带宽,将整个机架视为一个统一加速器;跨机架则依托NVIDIA Quantum-X800 InfiniBand平台,每GPU提供800Gb/s带宽,结合自适应路由、基于遥测的拥塞控制与SHARP v4协议,显著提升大规模训练与推理的效率。 此次部署不仅是硬件的突破,更涉及数据中心的全面重构——从定制液冷系统、电力分配到软件编排与存储栈,均经过深度优化。微软表示,未来将部署数十万颗Blackwell Ultra GPU,全面支撑下一代“数万亿参数”级AI模型的发展。 该系统体现了微软与NVIDIA多年深度合作的成果,也彰显了其在AI基础设施领域的领导地位。尽管OpenAI近期与NVIDIA、AMD签下巨额数据中心协议,计划2025年前投入超千亿美元自建算力,但微软强调,其全球34个国家、超过300个数据中心已具备“独特优势”,可快速、高效地支持前沿AI应用。 微软CTO Kevin Scott将在10月27日至29日举行的TechCrunch Disrupt大会上进一步阐述其AI基础设施战略。随着AI进入“超大规模模型”时代,这场算力竞赛正加速演进。
