元强化学习在语言智能体中激发探索行为
元强化学习在语言智能体中激发探索行为
Yulun Jiang Liangze Jiang Damien Teney Michael Moor Maria Brbic
Abstract
强化学习(Reinforcement Learning, RL)已使得大规模语言模型(Large Language Models, LLMs)代理能够与环境交互,并完成多轮次、长时程的任务。然而,经过RL训练的代理在需要主动探索的任务中往往表现不佳,且难以高效地从试错经验中进行适应。本文提出LaMer,一种通用的元强化学习(Meta-RL)框架,使LLM代理能够在测试阶段主动探索并基于环境反馈进行学习。LaMer包含两个核心组件:(i)跨回合训练框架,旨在促进探索行为并优化长期奖励;(ii)基于反思的上下文策略自适应机制,使代理能够在不进行梯度更新的情况下,仅凭任务反馈信号动态调整其策略。在多种不同环境中的实验表明,LaMer相较于传统RL基线方法显著提升了性能,在Sokoban、MineSweeper和Webshop任务上分别实现了11%、14%和19%的性能提升。此外,与仅通过RL训练的代理相比,LaMer在面对更具挑战性或此前未见过的任务时,展现出更强的泛化能力。总体而言,我们的实验结果表明,元强化学习为引导语言代理实现有效探索提供了一种系统性方法,通过学习到的探索策略,显著增强了代理对新环境的鲁棒适应能力。
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.