HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA Megatron 加速大语言模型训练:优化新兴优化器

NVIDIA 近日发布技术报告,详解如何利用 Megatron 框架支持 Muon 等新兴高阶优化器,以加速大语言模型的训练。Muon 等算法近年来在 Kimi K2 和 GLM-5 等顶尖开源模型中表现优异,但大规模部署面临计算成本高、数值不稳定及通信瓶颈等挑战。 测试数据显示,在搭载 256 块 NVIDIA GB300 的 GB300 NVL72 集群上,使用 NVIDIA NeMo Megatron Bridge 26.02 框架,Kimi K2 和 Qwen3 30B 模型采用 Muon 优化器的训练吞吐量与传统的 AdamW 相比几乎没有损失,且浮点运算利用率更高。为解决大规模训练难题,NVIDIA 推出了多项关键技术:首先是层级分布式优化器,将完整层参数分配给单个 GPU,确保预条件计算所需的全量梯度数据可用;其次是针对张量并行场景优化的分布式 Newton-Schulz 迭代,提供重复模式以优化网络延迟,或分布模式以平衡计算与通信;此外还引入了分块模式以降低开销。 在效率优化方面,通过延迟参数收集隐藏通信延迟,并利用 SYRK(对称秩 K 更新)将部分矩阵乘法操作转化为更高效的计算,节省了近半浮点运算量,同时支持融合所有约减以减少带宽占用。目前,Muon 已深度集成至开源库 Megatron Core,并支持 SOAP 等其他复杂优化器。开发者可通过 Megatron Bridge 仓库快速复现实验结果并启动训练。这一系列举措标志着高阶优化算法已具备在千卡级集群上大规模部署的能力,将显著提升大模型训练的效率与可扩展性。

相关链接

NVIDIA Megatron 加速大语言模型训练:优化新兴优化器 | 热门资讯 | HyperAI超神经