谷歌发布Decoupled DiLoCo:分布式 AI 训练的新前沿
谷歌近日发布一项突破性研究,推出名为"Decoupled DiLoCo"的全新分布式训练架构,旨在解决未来超大规模人工智能模型在跨地域数据中心训练时的通信延迟与硬件同步难题。传统训练模式依赖大量芯片保持紧密同步,随着规模扩大,这种对精确同步的严格要求成为巨大的物流挑战。而 Decoupled DiLoCo 通过将训练任务分解为独立的计算“岛屿”,采用异步数据流交互,有效隔离了局部故障,使系统其他部分仍能高效学习。 该架构显著提升了训练系统的韧性与灵活性。谷歌成功在四个美国区域利用现有互联网宽带网络,以 2 至 5 Gbps 的速率训练了包含 120 亿参数的模型。测试结果显示,该方法比传统同步机制快 20 倍以上,且无需建设定制化的专用网络基础设施。其核心优势在于将通信需求嵌入到更长的计算周期中,消除了系统等待的阻塞瓶颈。 此外,Decoupled DiLoCo 打破了硬件代际限制,允许在单次训练中混合使用不同代次的芯片(如 TPU v6e 与 v5p)。实验表明,即使硬件世代与速度不同,系统仍能保持与单一硬件训练相当的性能。这不仅延长了旧有硬件的使用寿命,还充分利用了闲置算力,缓解了因新硬件发布不同步导致的容量瓶颈。这项技术标志着谷歌在从硬件到软件的全栈 AI 训练基础设施领域迈出了重要一步,为构建更具弹性、可扩展的下一代 AI 训练体系奠定了坚实基础。该研究由谷歌 DeepMind 和谷歌研究团队共同完成。
