
摘要
本文提出了一种新型的自适应大语言模型(LLM)智能体学习范式,该范式无需对底层LLM进行微调。现有方法通常存在两种局限:要么僵化,依赖于静态且人工设计的反思工作流;要么计算成本高昂,需要对LLM模型参数进行梯度更新。相比之下,我们的方法通过基于记忆的在线强化学习,实现了低成本的持续适应。我们将这一机制形式化为一种增强记忆的马尔可夫决策过程(Memory-augmented Markov Decision Process, M-MDP),并引入神经案例选择策略以指导行动决策。过往经验被存储于情景记忆中,该记忆可为可微分或非参数化形式。策略通过记忆重写机制,依据环境反馈持续更新,而策略优化则通过高效的内存读取(检索)实现。我们在深度研究场景中实现了该智能体模型——AgentFly,其在GAIA验证集上取得87.88%的Pass@3(Top-1)成绩,在测试集上达到79.40%的性能;在DeepResearcher数据集上,F1得分达66.6%,PM得分达80.4%,显著优于当前基于训练的最先进方法。此外,基于案例的记忆机制在分布外任务上带来了4.7%至9.6%的绝对性能提升。本方法为构建具备持续、实时学习能力且无需梯度更新的通用型LLM智能体提供了一条可扩展且高效的路径,推动机器学习向开放式技能获取与深度研究场景迈进。代码已开源,地址为:https://github.com/Agent-on-the-Fly/AgentFly。