Command Palette
Search for a command to run...
Yuxiang Ji Ziyu Ma Yong Wang Guanhua Chen Xiangxiang Chu Liaoni Wu

摘要
近年来,强化学习(RL)的进展显著提升了大语言模型(LLMs)的智能体(agentic)能力。在长期且多轮交互的智能体任务中,仅依赖结果奖励的现有方法常面临监督信号稀疏的问题。为应对这一挑战,我们提出了一种基于树搜索的分组强化学习方法——树结构分组相对策略优化(Tree-based Group Relative Policy Optimization, Tree-GRPO)。在该方法中,每个树节点代表一次完整的智能体交互步骤。通过共享公共前缀,树搜索采样能够在固定的 token 数量或工具调用次数预算下,显著增加可执行的轨迹采样数量。此外,我们发现,树状结构的轨迹天然支持仅基于结果奖励构建逐步的过程监督信号。基于此,Tree-GRPO 在树内与树间两个层次上均对分组相对优势进行估计。通过理论分析,我们证明了树内层次的分组相对策略优化目标,等价于逐步级别的直接偏好学习(direct preference learning)目标。在11个数据集及3类问答任务上的实验结果表明,所提出的树结构强化学习方法在性能上显著优于传统的链式强化学习方法。