AWS-Cluster mit 1 Mio. Trainium2-Chips für Anthropic online
亚马逊云科技(AWS)于10月29日宣布,其与人工智能公司Anthropic合作打造的AI超级计算集群Project Rainier已正式投入运行。该集群目前集成了近50万颗AWS自研的Trainium2 AI芯片,预计到2023年底将扩展至超过100万颗,成为全球规模最大的AI计算平台之一,计算能力较AWS此前任何AI基础设施提升约70%。Project Rainier的快速落地,距离其去年12月宣布启动仅不到一年时间,彰显了AWS在AI基础设施领域的加速布局。 Trainium2是专为训练大型人工智能模型而设计的定制化芯片,单颗芯片每秒可执行数万亿次计算,专为处理AI训练中所需的海量数据和高并发算力需求优化。这些芯片通过新型Amazon EC2 UltraServer和EC2 UltraCluster架构互联,实现超高速通信与数据共享,大幅降低训练延迟,提升整体效率。Anthropic正利用该集群训练和部署其旗舰AI模型Claude的升级版本,借助更强的算力实现模型性能的显著跃升。 AWS强调,更强的计算能力直接推动AI模型的智能化与精准度提升。AWS杰出工程师、Trainium首席架构师罗恩·迪亚曼特表示,Project Rainier是一项“规模空前、独一无二的基础设施工程”,将为下一代AI模型的发展奠定基础。这一进展也标志着AWS在AI芯片自研与生态整合方面迈出关键一步,逐步摆脱对第三方GPU的依赖。 值得注意的是,就在Project Rainier上线前夕,亚马逊于10月28日宣布裁员约3万人,涉及多个业务部门。据CNBC报道,此次调整旨在优化资源配置,将更多人力与资金向AI、云计算及Trainium芯片等战略方向倾斜。随着AWS在AI领域的持续加码,其第三季度财报(将于当日收盘后发布)将备受市场关注,尤其是AWS在AI相关服务与基础设施上的增长表现。 目前,AWS已构建起从芯片(Trainium)、服务器(UltraServer)、集群架构(UltraCluster)到云服务(EC2)的完整AI技术栈,形成闭环优势。Anthropic作为其重要合作伙伴,正借助这一强大平台加速AI研发。业内分析认为,Project Rainier的上线不仅巩固了AWS在AI基础设施领域的领先地位,也预示着全球AI训练正进入“超大规模集群时代”。随着训练成本下降与模型性能提升,未来更多企业将有能力构建和部署百亿乃至千亿参数级别的AI模型,推动AI应用全面渗透至各行各业。
