Back to Headlines

谷歌重磅展示其AI推理能力新突破

1 个月前

谷歌在最近的AI基础设施峰会上展示了其在AI推理规模与性能上的惊人进展,凸显其作为超大规模云服务商在AI算力基础设施上的领先地位。谷歌自早期便开创了多项关键技术,包括BackRub搜索引擎、GFS文件系统、MapReduce数据处理框架、Borg/Omega集群管理系统(后开源为Kubernetes)、Bigtable、Spanner、BigQuery和Dataflow等,奠定了现代互联网技术的基石。如今,这些技术正全面服务于其生成式AI体系。 谷歌AI推理负载呈指数级增长。据其AI与计算基础设施总经理Mark Lohmeyer展示的数据,2024年4月,谷歌应用的推理速率约为9.7万亿token/月;到2025年6月,已飙升至约980万亿token/月,较一年前增长近50倍。若趋势持续,2025年8月可能突破1460万亿token/月。这一爆炸性增长依赖于其自研的TPU芯片,尤其是最新一代的Ironwood TPU v7p。 Ironwood系统性能远超前代Trillium TPU,峰值性能提升5倍,高带宽内存(HBM)容量提升6倍。单个Ironwood集群通过谷歌独有的光学电路开关(OCS)互联,可集成9216个TPU,总HBM容量达1.77PB,远超基于Nvidia Blackwell GPU的系统。OCS具备动态重构和故障自愈能力,可在不中断训练或推理任务的情况下自动绕过故障TPU,极大提升系统可靠性。 谷歌在液冷技术上也处于行业前沿。自2014年起投入研发,目前已进入第五代冷却分配单元(CDU),2024年液冷总容量达1吉瓦,是当时全球其他数据中心的70倍。该技术正计划向开放计算项目(OCP)开源,未来将扩展至GPU系统。 在软件栈方面,谷歌推出全新AI推理架构:基于GKE(Google Kubernetes Engine)的推理网关,结合vLLM框架与自研的Anywhere Cache缓存服务,可将跨区域读取延迟降低96%,显著提升吞吐并降低网络成本。其GKE推理快速启动工具(Quickstart)帮助用户优化复杂配置,避免早期决策失误带来的经济代价。 谷歌还引入了推测解码(speculative decoding)技术,使Gemini模型推理效率大幅提升,能耗降低约33倍。该技术通过分离“预填充”与“解码”阶段,将不同阶段任务分配给最优硬件处理,实现更高利用率。 总体而言,谷歌宣称其客户在使用Google Cloud AI服务时,推理延迟可降低96%,吞吐提升40%,单token成本降低30%。同时,其混合计算架构——融合TPU与Nvidia GPU(如Blackwell RTX 6000 Pro、B200节点)——被称作“AI超算”,支持Nvidia Dynamo等第三方推理框架,展现出强大的生态兼容性与性能优势。

Related Links