Command Palette
Search for a command to run...

摘要
开发能够通过一系列智能决策来解决复杂现实任务的自主大语言模型(LLM)智能体,正成为快速发展的前沿领域。如同人类认知的发展过程,智能体应通过与环境的探索和交互逐步获取知识与技能。尽管已有诸多进展,学术界仍缺乏一个统一、可交互的强化学习(Reinforcement Learning, RL)框架,能够无需依赖监督微调(Supervised Fine-Tuning, SFT),在多样化且真实的环境中从零开始有效训练此类智能体。为弥合这一差距,我们提出 AgentGym-RL,一个全新的框架,用于通过强化学习实现大语言模型智能体在多轮交互决策中的训练。该框架采用模块化与解耦的架构设计,具备高度灵活性与可扩展性,涵盖广泛的现实场景,并支持主流的强化学习算法。此外,我们提出了 ScalingInter-RL 训练方法,旨在平衡探索与利用,实现稳定的强化学习优化。在训练初期,该方法通过限制交互次数强调利用;随着训练进程推进,逐步扩大决策时域(horizon),引导智能体进行更广泛的探索,以激发多样化的求解策略。这一机制使智能体能够发展出更丰富的行为模式,并在长时域任务中显著降低崩溃风险。我们通过大量实验验证了 AgentGym-RL 框架与 ScalingInter-RL 方法在稳定性与有效性方面的优势。在跨多样化环境的27项任务中,我们的智能体表现达到或超越了商用模型水平。我们总结了关键发现,并将开源完整的 AgentGym-RL 框架——包括全部代码与数据集——以支持研究社区共同推动下一代智能体的发展。