摘要

针对长视野代理任务（long-horizon agentic tasks）的后训练过程，计算效率与泛化能力之间存在显著张力。监督微调（SFT）虽具备较高的计算效率，但常面临域外（OOD）性能衰退的问题；反之，端到端强化学习（E2E RL）虽能保留 OOD 能力，却因需要多轮策略内（on-policy）采样推演（rollout）而付出高昂的计算成本。为此，我们提出了 PivotRL，这是一种新颖的框架，旨在利用现有的 SFT 轨迹，兼顾 SFT 的计算效率与 E2E RL 的 OOD 准确性。PivotRL 依赖两大核心机制：首先，执行局部的策略内推演，并筛选出“枢轴点”（pivots），即那些采样动作在结果上表现出高方差的信息丰富的中间步骤；其次，采用针对功能等价动作的奖励机制，而非要求与 SFT 数据演示进行严格的字符串匹配。理论上，我们证明了这些机制能够激励出具有大天然梯度范数（natural gradient norm）的强学习信号，同时最大限度地保留与训练任务无关动作的策略概率排序。在与相同数据下的标准 SFT 对比中，我们证明 PivotRL 在四个代理领域中的平均域内准确率提升了 4.17%，在非代理任务中的 OOD 准确率提升了 10.04%。值得注意的是，在代理编码任务中，PivotRL 仅以 E2E RL 四分之一的推演轮数，便实现了与之相当的准确率。目前，PivotRL 已被 NVIDIA 的 Nemotron-3-Super-120B-A12B 模型采纳，作为生产规模代理后训练的核心引擎。

源 PDF