Command Palette

Search for a command to run...

17 天前

通过经验合成实现Agent学习的扩展

通过经验合成实现Agent学习的扩展

摘要

尽管强化学习(RL)能够通过促进智能体与环境的交互实现自我优化,从而赋予大型语言模型(LLM)智能体强大的能力,但其实际应用仍面临诸多挑战:高昂的环境模拟开销、任务多样性有限、奖励信号不可靠以及基础设施复杂等问题,均严重阻碍了可扩展经验数据的收集。为应对这些挑战,我们提出 DreamGym——首个专为可扩展性设计的统一框架,旨在合成多样化且可扩展的经验数据,以支持自主智能体的有效在线强化学习训练。与依赖昂贵的真实环境模拟不同,DreamGym 将环境动态提炼为基于推理的经验模型,通过逐步推理生成一致的状态转移与反馈信号,从而实现可扩展的智能体模拟 rollout 收集。为提升状态转移的稳定性和质量,DreamGym 采用一个以离线真实数据初始化的经验回放缓冲区,并持续注入新生成的交互数据,主动支持智能体训练。为增强知识获取能力,DreamGym 能自适应地生成具有挑战性的新任务,以推动当前智能体策略的持续优化,实现更高效的在线课程学习。在多种环境和不同智能体架构上的实验表明,DreamGym 显著提升了强化学习训练效果,无论是在完全模拟的场景中,还是在“仿真到现实”(sim-to-real)的迁移任务中均表现优异。在 WebArena 等非 RL 就绪任务上,DreamGym 的表现超越所有基线方法,提升超过 30%。在 RL 就绪但成本高昂的场景中,DreamGym 仅使用合成交互即可达到 GRPO 与 PPO 的性能水平。当将仅在合成经验上训练的策略迁移到真实环境的强化学习任务时,DreamGym 仍能带来显著的性能提升,同时大幅减少对真实世界交互的依赖,为通用强化学习提供了一种可扩展的“热启动”策略。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过经验合成实现Agent学习的扩展 | 论文 | HyperAI超神经