Nemotron-Cascade:面向通用推理模型的级联强化学习扩展
Nemotron-Cascade:面向通用推理模型的级联强化学习扩展
Abstract
利用强化学习(Reinforcement Learning, RL)构建通用推理模型面临显著的跨领域异构性问题,表现为推理阶段响应长度和验证延迟的极大差异。这种变异性增加了强化学习基础设施的复杂性,拖慢了训练进程,并使得训练课程设计(如响应长度扩展)以及超参数选择变得极为困难。本文提出一种级联式领域专用强化学习方法(Cascaded Domain-wise Reinforcement Learning, Cascade RL),用于开发通用推理模型Nemotron-Cascade,该模型能够同时支持指令遵循(instruct)模式与深度思考(deep thinking)模式。与传统方法中混合来自不同领域的异构提示不同,Cascade RL采用分阶段、领域专属的强化学习策略,有效降低了工程实现复杂度,并在多种基准测试中实现了当前最优性能。值得注意的是,若将基于人类反馈的强化学习(RLHF)作为预处理步骤,其作用远不止于偏好优化,而是显著提升了模型的推理能力;后续各领域的专用强化学习验证与优化(RLVR)阶段通常不会损害前期领域所达到的基准性能,甚至可能进一步提升(详见图1示意)。我们训练的140亿参数模型(14B)在经过强化学习优化后,在LiveCodeBench v5/v6/Pro基准上超越了其监督微调教师模型DeepSeek-R1-0528,并在2025年国际信息学奥林匹克竞赛(IOI)中取得了银牌水平的成绩。我们已公开透明地分享了完整的训练流程与数据配方,以促进社区研究与复现。
一句话总结
NVIDIA 研究团队等人提出 Cascade RL 方法,通过分阶段的领域特异性强化学习训练 Nemotron-Cascade 推理模型,避免了传统混合提示方法在处理跨领域响应长度差异和验证延迟时的局限性。该方法降低了工程复杂度,同时在 LiveCodeBench 等编程基准测试中取得最先进性能,并在 2025 年国际信息学奥林匹克竞赛(IOI)中获得银牌;基于 RLHF 的预训练显著提升了推理能力,超越标准对齐效果。
核心贡献
- 推理模型的强化学习面临跨领域异质性挑战:不同任务的响应长度和验证延迟差异导致基础设施复杂度激增和训练速度下降。
- 提出的级联领域特异性强化学习(Cascade RL)方法按顺序训练不同领域,而非混合异构提示,支持指令/深度思考双模式运行,同时避免阶段间性能退化。
- 在 LiveCodeBench v5/v6/Pro 及 2025 年国际信息学奥林匹克竞赛(IOI)等基准测试中,其 14B 参数的 Nemotron-Cascade 模型超越教师模型(DeepSeek-R1-0528),取得银牌级表现,且未损害先前领域的结果。
引言
使用强化学习训练通用推理模型面临重大障碍:数学、编程和对齐等任务的响应长度与验证延迟差异导致跨领域异质性。这种多样性使 RL 基础设施复杂化、拖慢训练速度,并阻碍课程设计与超参数调优。现有方法通过同时混合多领域异构提示,常导致统一模型性能下降,被迫在思考模式推理与指令模式响应速度间妥协。
作者采用级联领域特异性强化学习(Cascade RL)解决上述挑战。该方法按领域顺序执行 RL 阶段——从 RLHF 对齐开始,依次进行数学、代码和软件工程 RL——在降低工程复杂度的同时最小化灾难性遗忘。关键发现:早期 RL 阶段(如 RLHF)意外提升了超越对齐的推理能力,后续领域训练极少损害前期收益。这使得单一统一模型(Nemotron-Cascade)能同时高效运行于指令和深度思考模式,其 14B 变体在编程基准测试中超越教师模型,并在 2025 年 IOI 中取得竞争力表现。
数据集
- 数据集构成与来源:作者采用多阶段监督微调(SFT)课程,覆盖数学、编程、科学、工具使用、软件工程及通用领域(如对话、知识问答、创意写作)。数据源包括 AceMath、NuminaMath、TACO、APPS、SWE-Bench 变体及 Llama-Nemotron 工具调用数据集,并辅以合成样本。
- 关键子集细节:
- 通用领域:280 万样本(32 亿 token),来源多样(如 Lian 等, 2023;Xu 等, 2024),含并行思考/非思考响应。经质量、长度及风格一致性筛选。
- 数学:阶段 1(16K token):35.3 万提示 → 277 万样本(DeepSeek-R1);阶段 2(32K):16.3 万筛选"难题"提示 → 188 万样本(DeepSeek-R1-0528)。通过 9-gram 重叠移除去污染。
- 代码:阶段 1:17.2 万提示 → 142 万样本;阶段 2:7.9 万提示 → 139 万样本。来源包括 TACO、APPS 和 OpenCodeReasoning。
- 科学:22.6 万提示 → 28.9 万阶段 1 样本;34.5 万阶段 2 样本。经复杂推理筛选及去污染处理。
- 工具调用:Llama-Nemotron 的 31 万对话(141 万轮次),系统提示中列出可用工具。
- 软件工程:12.7 万代码修复实例(如 SWE-Bench-Train, SWE-Smith),通过补丁相似度过滤(Unidiff ≥0.5)。
- 训练用途:SFT 课程分两阶段运行:阶段 1(16K token)在通用领域 + 数学/科学/代码数据上训练一轮;阶段 2(32K token)将通用数据与新阶段 2 推理数据、工具调用及软件工程数据集重组(同样一轮)。科学数据在阶段 2 上采样 2 倍;软件工程数据上采样 3 倍。所有推理/工具数据采用思考模式格式。
- 处理细节:响应由 DeepSeek 模型(如 R1-0528)生成,每提示多响应采样(平均 7–17 个)。数据经 9-gram 基准去污染、真值验证(如丢弃不匹配的 MCQ 答案)及辅助模型交叉验证(如 Qwen2.5-32B)。软件工程 RL 的提示超出 SFT 上下文限制(通过 YaRN 扩展至 60K token),并包含噪声局部文件以模拟真实复杂度。
方法
作者采用级联强化学习(Cascade RL)框架,逐步提升模型在日益专业化领域的性能。整体训练流程始于基础模型,经多阶段监督微调(SFT)建立基础能力。从该 SFT 检查点出发,模型进入顺序 RL 流程:首先应用基于人类反馈的强化学习(RLHF)使输出符合人类偏好并减少冗余;随后通过指令遵循 RL(IF-RL)增强精确遵循用户指令的能力。后续阶段——数学 RL、代码 RL 及最终的软件工程 RL(SWE RL)——聚焦领域特异性推理与生成任务,最终形成 Nemotron-Cascade 模型。这种从通用到专业的渐进式流程,通过确保阶段间奖励结构对齐并最小化提示重叠,有效缓解灾难性遗忘。
参考框架图了解完整训练流程。

每个 RL 阶段采用严格在线策略的组相对策略优化(GRPO)算法,无 KL 散度项,将目标简化为组归一化 REINFORCE 公式。每次迭代中,策略生成 G 组 rollout,每个 token 的优势值根据组奖励均值与标准差计算。该设计确保稳定更新并避免熵崩溃。奖励函数因领域而异:RLHF 使用基于人类偏好的 72B 奖励模型的标量评分;数学 RL 通过基于规则的验证器根据答案正确性分配二元奖励;代码 RL 和 SWE RL 采用无执行验证器,计算生成补丁与真值补丁的词法与语义相似度。
为控制交互,作者采用简化的基于 ChatML 的模板,在用户提示后附加显式 /think 和 /no_think 标志,实现细粒度回合级推理模式控制。这与将模式控制嵌入系统提示或依赖冗余模板提示的先前工作形成对比。工具调用时,可用函数在系统提示的 标签内声明,模型生成的调用封装在 <tool_call> 标签中,如系统提示示例所示。
如下图所示:

在 SWE RL 阶段,作者采用简化的 Agentless 框架,将软件修复分解为定位、修复和补丁验证。修复阶段通过拼接定位文件及上下文生成目标化 diff 风格补丁,保留代码结构以减少幻觉。补丁验证经回归、复现和多数投票阶段,确保功能正确性与鲁棒性。为训练稳定,两阶段课程将输入上下文从 16K 扩展至 24K token,使模型逐步发展多文件推理能力而不致早期退化。
实验
- Cascade RL 框架在人类反馈对齐、指令遵循、数学推理、竞赛编程和软件工程中得到验证,展现最小灾难性遗忘及领域特异性性能提升.
- Nemotron-Cascade-14B-Thinking 在 LiveCodeBench v5/v6 上取得 78.0/74.8,超越 DeepSeek-R1-0528(74.8/73.3)和 Gemini-2.5-Pro-06-05(尽管推理预算仅 64K token)。
- Nemotron-Cascade-8B 统一模型在 LiveCodeBench v5/v6 上匹配 DeepSeek-R1-0528(75.3/71.5),参数量仅 8B(对比 671B),同时在 IOI 2025 中取得银牌级表现。
- Nemotron-Cascade-14B 在 SWE-bench Verified 上达到 43.1% pass@1,超越 DeepSWE-32B(42.2%)等专用模型及通用 14B 模型(Qwen3-14B: 27.4%)。
作者使用 14B 模型评估最大提示长度对代码修复性能的影响。结果表明:提示长度从 16K 增至 32K 可提升修复准确率(尤其在提供真值文件定位时),但 40K 时性能下降,表明超过 32K 上下文后收益递减。

作者在系列 Codeforces 竞赛中评估 Nemotron-Cascade 模型,报告多分区的得分、罚时及预估 ELO 排名。结果显示竞赛间表现稳定,预估 ELO 分数范围约 1500 至 2600,表明具备与人类参与者相当的竞争力。模型表现随竞赛难度和分区变化,通常在低分区和近期轮次中得分与排名更高。

作者评估 SWE RL 的不同奖励函数,发现语义相似度奖励在代码修复任务中优于词法相似度(尤其在提供真值文件定位时)。奖励塑形可提升词法相似度性能,但对语义相似度无额外增益,表明后者即使在低相似度分数下也能提供更可靠的训练信号。

作者将 SWE RL 作为 Cascade RL 流程的最终阶段,观察到 SWE-bench Verified 上显著提升:14B-Thinking 模型达到 43.1% pass@1,超越专用 32B 模型。SWE RL 提升软件工程性能的同时对其他领域影响微弱,多数变化归因于评估方差。完整训练后,统一 8B 模型在 SWE-bench Verified 上缩小与专用 8B-Thinking 模型的性能差距(37.2% vs 38.5%)。

作者在系列 Codeforces 竞赛中评估 Nemotron-Cascade 模型,报告多分区的得分、罚时及预估排名。结果显示在多数轮次中保持高分(尤其 Div. 2 竞赛),基于预估 ELO 评级体现与参赛者的竞争力。数据反映模型在竞赛条件下解决算法问题的能力,表现随轮次难度和分区变化。

Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.