Oracle率先获得AMD MI450 GPU与Helios超算架构合作权
在本周举行的Oracle OpenWorld CloudWorld AI World大会上,Oracle正式宣布与AMD达成重大合作,将部署全球首个由5万张AMD Instinct MI450系列GPU驱动的超大规模AI计算集群。该集群基于AMD“Helios”双宽整机架架构,计划于2026年第三季度在Oracle云基础设施(OCI)中上线,并将在2027年及以后持续扩展,标志着企业级AI算力进入新阶段。 此次合作的核心是AMD下一代“Altair”架构GPU,其中MI450系列包含两个版本:面向传统八路节点的MI450,以及专为“Helios”整机架系统设计的MI450X。Oracle明确表示,其部署将采用MI450系列中HBM4内存容量最大的型号,而非标准MI450X。这意味着该集群可能采用定制化设计,每张GPU配备高达432GB的HBM4内存,远超MI450X预期的288GB,从而显著提升大模型训练的显存容量与性能。 在性能方面,单个MI450 GPU在FP4精度下可提供约40 petaflops算力,8路节点可达74 petaflops。若集成至“Helios”整机架系统,128 GPU配置(IF128)可实现每GPU 50 petaflops的峰值性能,整架系统总算力达1.45 exaflops(FP8)和2.9 exaflops(FP4),聚合HBM4内存达31TB,带宽高达1.4 PB/sec,具备业界领先的能效与扩展能力。 该集群还将集成AMD“Venice”EPYC CPU与Pensando“Vulcano”DPUs,采用Oracle自研的Acceleron网络架构,通过DPUs作为集成交换节点,实现GPU间内存共享与高速互联。AMD将使用UALink over Ethernet(UALoE)技术,将Infinity Fabric协议扩展至以太网,实现低延迟、高带宽的跨节点通信,可能采用Cisco或Marvell的以太网ASIC,或完全依托Pensando DPUs构建内部网络。 据估算,该50,000 GPU规模的集群将部署约700个“Helios”整机架,总投资约35亿至40亿美元,涵盖GPU、CPU、存储与网络。由于当前HBM与高端GPU供需严重失衡,Oracle并未获得显著采购折扣。 值得注意的是,该集群将作为OCI公共云资源向所有客户开放,而非仅服务于Oracle与OpenAI的专属合作。客户可按需租用算力,与已上线的MI355X集群形成互补,推动AI基础设施的普惠化。这一布局不仅彰显Oracle在AI算力市场的雄心,也预示着未来AI基础设施将围绕“定制化GPU+智能网络+弹性云服务”形成新的竞争格局。
