微软发布 Agent Lightning:全新AI框架加速大规模语言模型的强化学习训练
微软近日推出开源框架 Agent Lightning,旨在通过强化学习(RL)提升多代理系统的性能,尤其针对大规模语言模型(LLM)的训练优化。该框架无需重构现有代理架构,即可将真实代理行为转化为强化学习所需的训练过渡数据,显著提升模型决策能力。 Agent Lightning 将代理行为建模为部分可观测的马尔可夫决策过程(POMDP),其中观察为输入信息,行动对应模型调用,奖励则可来自最终结果或中间反馈。框架通过捕获代理的调用记录、输入输出及奖励信息,过滤掉冗余噪声,生成高质量、结构化的训练数据。 其核心设计采用“训练代理解耦”机制:Lightning Server 负责模型训练与服务,提供与 OpenAI 兼容的 API 接口,便于新模型调用;Lightning Client 则在现有代理运行时实时采集调用日志,并将数据传回服务器。这一架构在保持工具、浏览器等外部依赖紧密集成的同时,将高成本的 GPU 训练集中于服务器端,提升效率与可扩展性。 框架支持两种数据追踪路径:默认路径基于 OpenTelemetry,可无缝对接标准遥测系统;另提供轻量级嵌入式追踪器,适用于不愿部署复杂监控系统的团队。所有数据统一存储,便于集中训练与分析。 在实验中,研究团队在三项关键任务上验证了其效果:文本转 SQL(使用 Spider 基准,覆盖超1万问题与200个数据库)、检索增强生成(基于含2100万文档的维基百科索引)以及数学问答(使用 Calc X 数据集,依赖工具调用计算)。结果均显示,采用 Agent Lightning 后,模型在各项任务中均实现稳定且显著的奖励提升。 该框架为构建高效、可扩展的智能代理系统提供了新范式,相关论文已发布于 arXiv:https://arxiv.org/abs/2508.03680v1。
