HyperAIHyperAI

Command Palette

Search for a command to run...

PivotRL:低计算成本下的高精度智能体后训练

摘要

针对长视野代理任务(long-horizon agentic tasks)的后训练过程,计算效率与泛化能力之间存在显著张力。监督微调(SFT)虽具备较高的计算效率,但常面临域外(OOD)性能衰退的问题;反之,端到端强化学习(E2E RL)虽能保留 OOD 能力,却因需要多轮策略内(on-policy)采样推演(rollout)而付出高昂的计算成本。为此,我们提出了 PivotRL,这是一种新颖的框架,旨在利用现有的 SFT 轨迹,兼顾 SFT 的计算效率与 E2E RL 的 OOD 准确性。PivotRL 依赖两大核心机制:首先,执行局部的策略内推演,并筛选出“枢轴点”(pivots),即那些采样动作在结果上表现出高方差的信息丰富的中间步骤;其次,采用针对功能等价动作的奖励机制,而非要求与 SFT 数据演示进行严格的字符串匹配。理论上,我们证明了这些机制能够激励出具有大天然梯度范数(natural gradient norm)的强学习信号,同时最大限度地保留与训练任务无关动作的策略概率排序。在与相同数据下的标准 SFT 对比中,我们证明 PivotRL 在四个代理领域中的平均域内准确率提升了 4.17%,在非代理任务中的 OOD 准确率提升了 10.04%。值得注意的是,在代理编码任务中,PivotRL 仅以 E2E RL 四分之一的推演轮数,便实现了与之相当的准确率。目前,PivotRL 已被 NVIDIA 的 Nemotron-3-Super-120B-A12B 模型采纳,作为生产规模代理后训练的核心引擎。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供