12 天前
Agent Lightning:使用强化学习训练任意AI Agent
Xufang Luo, Yuge Zhang, Zhiyuan He, Zilong Wang, Siyun Zhao, Dongsheng Li, Luna K. Qiu, Yuqing Yang

摘要
我们提出 Agent Lightning,一个灵活且可扩展的框架,支持基于强化学习(Reinforcement Learning, RL)对任意人工智能代理(AI agent)进行大型语言模型(Large Language Models, LLMs)的训练。与现有方法中将强化学习训练与代理行为紧密耦合,或依赖序列拼接与掩码机制不同,Agent Lightning 实现了代理执行与训练过程的完全解耦,可无缝集成通过多种方式构建的现有代理(例如使用 LangChain、OpenAI Agents SDK、AutoGen 等框架,或从零构建),几乎无需任何代码修改。通过将代理执行建模为马尔可夫决策过程(Markov Decision Process, MDP),我们定义了一种统一的数据接口,并提出了一种分层强化学习算法——LightningRL,其包含一个信用分配模块,能够将任意代理生成的轨迹(trajectory)分解为可用于训练的转移样本(transition)。这一机制使强化学习能够有效处理复杂的交互逻辑,如多代理场景和动态工作流。在系统架构方面,我们引入了“训练-代理解耦”(Training-Agent Disaggregation)设计,并将代理可观测性框架集成至代理运行时,提供标准化的代理微调接口。在文本转SQL、检索增强生成以及数学工具使用等任务上的实验表明,该框架实现了稳定且持续的性能提升,充分展现了其在真实世界代理训练与部署中的巨大潜力。