HyperAI超神经

NVIDIA最新发布的NeMo-RL v0.3版本引入了对Megatron-Core后端的全面支持，显著提升了大规模语言模型强化学习训练的效率与吞吐量。此前版本主要依赖PyTorch DTensor（即FSDP2）作为训练后端，虽支持与Hugging Face生态的无缝集成及多种并行策略（如张量并行、序列并行、上下文并行），但在模型参数量达到数百亿级别时，其性能瓶颈逐渐显现——激活内存过大导致重计算开销激增，训练步时间大幅延长，且缺乏针对NVIDIA GPU优化的CUDA内核，难以实现最佳性能。为解决这些问题，NeMo-RL v0.3引入Megatron-Core作为新一代训练后端。该库基于GPU优化技术，采用6D并行策略，有效优化了通信与计算模式，支持密集模型和混合专家（MoE）架构。NeMo-RL通过封装复杂的底层配置，使用户无需深入掌握Megatron-Core的低级参数即可轻松启用高性能训练，仅需在YAML配置文件中添加policy.megatron_cfg并设置enabled=True，即可启动训练。性能对比显示，使用Megatron-Core后，Llama 3.1-8B和70B模型的单步训练时间显著缩短。例如，Llama 3.1-70B在8节点、每节点8卡环境下，Megatron-Core的总步时间仅为147秒，而DTensor版本高达230秒，效率提升超过35%。在Qwen3系列模型上也实现了类似优势。此外，Megatron-Core支持序列打包（sequence packing）和重要性采样（importance sampling）等优化技术，前者减少填充token，提升利用率；后者降低训练与推理间的概率差异，保障收敛一致性。该版本还支持长序列训练，如Llama 3.3-70B在16K上下文长度下，单步时间控制在445秒以内，性能表现优异。未来还将持续优化长上下文训练能力。 NeMo-RL v0.3还引入多项实用功能，助力高效后训练。开发者可通过官方文档、示例脚本和配置文件快速上手，利用Megatron-Core的GPU原生优化能力，实现大规模模型在强化学习场景下的高效、稳定训练。

NVIDIA NeMo-RL融合Megatron-Core实现强化学习训练吞吐量飞跃

Related Links