
摘要
具有可验证奖励的大规模强化学习(RLVR)已在利用大语言模型(LLMs)进行单次推理任务方面展现出其有效性。在实际推理场景中,LLMs 常常可以借助外部工具来辅助任务求解过程。然而,现有的强化学习算法在平衡模型的内在长程推理能力与其在多轮工具交互中的熟练程度方面仍显不足。为弥合这一差距,我们提出了代理强化策略优化(ARPO),这是一种专为训练多轮 LLM 基础代理而设计的新颖代理强化学习算法。通过初步实验,我们观察到,LLMs 在与外部工具交互后,往往会表现出高度不确定的行为,这种行为体现在生成的标记熵分布显著增加。受这一观察启发,ARPO 引入了一种基于熵的自适应采样机制,在全局轨迹采样与步骤级采样之间实现动态平衡,从而在使用工具后的高不确定性步骤中促进探索。通过整合优势归因估计,ARPO 使 LLM 能够在逐步的工具使用交互中内化优势差异。我们在计算推理、知识推理和深度搜索领域共 13 个具有挑战性的基准测试中进行的实验表明,ARPO 在性能上优于传统的轨迹级强化学习算法。值得注意的是,ARPO 仅需现有方法一半的工具使用预算即可实现性能提升,为将基于 LLM 的代理与实时动态环境对齐提供了一种可扩展的解决方案。我们的代码和数据集已发布于 https://github.com/dongguanting/ARPO