Command Palette
Search for a command to run...
PivotRL:低计算成本下的高精度智能体后训练
PivotRL:低计算成本下的高精度智能体后训练
摘要
针对长视野代理任务(long-horizon agentic tasks)的后训练过程,计算效率与泛化能力之间存在显著张力。监督微调(SFT)虽具备较高的计算效率,但常面临域外(OOD)性能衰退的问题;反之,端到端强化学习(E2E RL)虽能保留 OOD 能力,却因需要多轮策略内(on-policy)采样推演(rollout)而付出高昂的计算成本。为此,我们提出了 PivotRL,这是一种新颖的框架,旨在利用现有的 SFT 轨迹,兼顾 SFT 的计算效率与 E2E RL 的 OOD 准确性。PivotRL 依赖两大核心机制:首先,执行局部的策略内推演,并筛选出“枢轴点”(pivots),即那些采样动作在结果上表现出高方差的信息丰富的中间步骤;其次,采用针对功能等价动作的奖励机制,而非要求与 SFT 数据演示进行严格的字符串匹配。理论上,我们证明了这些机制能够激励出具有大天然梯度范数(natural gradient norm)的强学习信号,同时最大限度地保留与训练任务无关动作的策略概率排序。在与相同数据下的标准 SFT 对比中,我们证明 PivotRL 在四个代理领域中的平均域内准确率提升了 4.17%,在非代理任务中的 OOD 准确率提升了 10.04%。值得注意的是,在代理编码任务中,PivotRL 仅以 E2E RL 四分之一的推演轮数,便实现了与之相当的准确率。目前,PivotRL 已被 NVIDIA 的 Nemotron-3-Super-120B-A12B 模型采纳,作为生产规模代理后训练的核心引擎。