Command Palette

Search for a command to run...

1 个月前

通过早期经验进行Agent学习

Kai Zhang Xiangchao Chen Bo Liu Tianci Xue Zeyi Liao et al

通过早期经验进行Agent学习

摘要

语言智能体的长期目标是通过自身经验不断学习与优化,最终在复杂的真实世界任务中超越人类表现。然而,在许多环境中,仅依靠经验数据并使用强化学习训练智能体仍面临巨大挑战,这些环境或缺乏可验证的奖励信号(如网页交互),或需要低效的长时程轨迹回放(如多轮工具使用)。因此,当前大多数智能体仍依赖专家数据的监督微调,但这种方法难以扩展,且泛化能力较差。这一局限性源于专家示范的本质:它们仅涵盖有限的场景,导致智能体接触的环境多样性不足。为克服这一局限,我们提出一种折中范式——“早期经验”(early experience),即智能体通过自身行为生成的交互数据,其中未来状态作为监督信号,而无需依赖奖励信号。在此范式下,我们研究了两种利用此类数据的策略:(1)隐式世界建模,利用收集到的状态将策略锚定于环境动态之中;(2)自我反思,使智能体从自身非最优行为中学习,以提升推理与决策能力。我们在八个多样化的环境中,针对多个模型家族进行了评估。结果表明,我们的方法在提升任务有效性及跨领域泛化能力方面表现一致且显著,充分体现了早期经验的价值。此外,在具备可验证奖励信号的环境中,我们的实验结果显示出积极信号:早期经验为后续强化学习奠定了坚实基础,使其成为模仿学习与完全基于经验驱动的智能体之间一个切实可行的桥梁。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供