AWS最大AI计算集群Project Rainier上线,Anthropic将用其训练超百万颗自研芯片的Claude模型
亚马逊云科技(AWS)于10月29日正式宣布,其与人工智能公司Anthropic合作打造的AI超级计算集群Project Rainier已投入运行。该项目标志着全球AI基础设施建设迈入新阶段,目前集群已集成近50万颗亚马逊自研AI芯片Trainium2,预计到2023年底,将扩展至超过100万颗芯片,全面支撑Anthropic旗下AI模型Claude的训练与部署。 Project Rainier是AWS近年来规模最大的AI计算平台,其计算能力较此前任何AI基础设施提升约70%。该集群分布于美国多个数据中心,采用创新的Amazon EC2 UltraServer与UltraCluster架构,通过数千颗Trainium2芯片的高效互联,实现超高速数据传输与协同计算,显著提升大规模模型训练效率。 Trainium2芯片专为AI模型训练设计,具备每秒数万亿次浮点运算能力,远超通用处理器。与传统芯片不同,它针对深度学习中的高并发、高吞吐计算需求进行了深度优化,能够有效应对复杂模型训练中的海量数据处理挑战。这一硬件优势,使得Anthropic得以在更短时间内完成模型迭代,推动Claude系列模型向更高智能与精准度演进。 目前,Project Rainier已用于Claude的升级版本开发,为模型注入更强的语言理解、推理与生成能力。AWS杰出工程师、Trainium首席架构师罗恩·迪亚曼特表示,这一基础设施不仅是技术突破,更将引领下一代AI模型的发展方向。 值得注意的是,Project Rainier的快速落地,与亚马逊近期的战略调整密切相关。就在项目上线前一天,亚马逊宣布裁员约3万人,被外界解读为公司正集中资源向AI核心领域倾斜。此次重组凸显了AI技术在亚马逊未来战略中的核心地位,尤其是自研芯片与云服务的深度融合。 随着AWS第三季度财报即将发布,市场高度关注其云服务业务,尤其是AI相关收入的增长表现。Project Rainier的启用,不仅强化了AWS在AI算力市场的领先地位,也进一步巩固了其与Anthropic等前沿AI企业的合作关系。 总体来看,Project Rainier的上线,标志着AI基础设施正从“可用”迈向“极致高效”的新阶段。在自研芯片、超大规模集群与先进架构的共同驱动下,全球AI模型的训练效率与性能边界正在被不断刷新。
