Back to Headlines

NVIDIA NeMo-RL融合Megatron-Core实现强化学习训练吞吐量飞跃

15 天前

NVIDIA最新发布的NeMo-RL v0.3版本引入了对Megatron-Core后端的全面支持,显著提升了大规模语言模型强化学习训练的效率与吞吐量。此前版本主要依赖PyTorch DTensor(即FSDP2)作为训练后端,虽支持与Hugging Face生态的无缝集成及多种并行策略(如张量并行、序列并行、上下文并行),但在模型参数量达到数百亿级别时,其性能瓶颈逐渐显现——激活内存过大导致重计算开销激增,训练步时间大幅延长,且缺乏针对NVIDIA GPU优化的CUDA内核,难以实现最佳性能。 为解决这些问题,NeMo-RL v0.3引入Megatron-Core作为新一代训练后端。该库基于GPU优化技术,采用6D并行策略,有效优化了通信与计算模式,支持密集模型和混合专家(MoE)架构。NeMo-RL通过封装复杂的底层配置,使用户无需深入掌握Megatron-Core的低级参数即可轻松启用高性能训练,仅需在YAML配置文件中添加policy.megatron_cfg并设置enabled=True,即可启动训练。 性能对比显示,使用Megatron-Core后,Llama 3.1-8B和70B模型的单步训练时间显著缩短。例如,Llama 3.1-70B在8节点、每节点8卡环境下,Megatron-Core的总步时间仅为147秒,而DTensor版本高达230秒,效率提升超过35%。在Qwen3系列模型上也实现了类似优势。此外,Megatron-Core支持序列打包(sequence packing)和重要性采样(importance sampling)等优化技术,前者减少填充token,提升利用率;后者降低训练与推理间的概率差异,保障收敛一致性。 该版本还支持长序列训练,如Llama 3.3-70B在16K上下文长度下,单步时间控制在445秒以内,性能表现优异。未来还将持续优化长上下文训练能力。 NeMo-RL v0.3还引入多项实用功能,助力高效后训练。开发者可通过官方文档、示例脚本和配置文件快速上手,利用Megatron-Core的GPU原生优化能力,实现大规模模型在强化学习场景下的高效、稳定训练。

Related Links