HyperAIHyperAI

Command Palette

Search for a command to run...

Microsoft stellt Agent Lightning vor: Open-Source-Framework für effizientere LLM-Training durch Verstärkendes Lernen

微软近日推出开源框架 Agent Lightning,旨在通过强化学习(RL)提升多代理系统中大规模语言模型(LLM)的性能。该框架的核心创新在于无需重构现有代理架构,即可将真实代理行为转化为可用于训练的强化学习过渡数据。Agent Lightning 将代理行为形式化为部分可观测的马尔可夫决策过程(POMDP),其中观察为输入序列,行动为模型调用(如API调用或工具使用),奖励则可来自最终结果或中间反馈。通过捕获代理运行时的调用记录、输入输出及奖励信号,框架能够有效过滤噪声,生成高质量、结构化的训练数据。 为实现高效训练与服务分离,Agent Lightning 采用“训练代理解耦”架构:Lightning Server 负责模型训练与推理服务,提供与 OpenAI 兼容的 API 接口,支持模型快速更新与调用;Lightning Client 则部署在现有代理运行时环境中,实时采集行为数据并回传至服务器。这一设计既保留了工具、浏览器等外部依赖的紧密集成,又将高成本的 GPU 训练任务集中于服务器端,显著提升资源利用效率。 框架支持两种数据追踪路径:默认路径基于 OpenTelemetry,便于与主流监控系统集成,实现标准化遥测数据采集;同时提供轻量级嵌入式追踪器,适用于无法部署复杂追踪栈的团队。所有数据最终统一存储于中心化位置,为后续训练提供一致、可扩展的数据基础。 在实验验证中,研究团队在三项关键任务上评估了 Agent Lightning 的效果:文本转 SQL(基于 Spider 基准,涵盖超 10,000 个复杂查询和 200 个数据库)、检索增强生成(基于 MuSiQue 基准,使用维基百科规模的 2100 万文档索引)以及数学问答(基于 Calc X 数据集,依赖工具调用完成计算)。结果表明,各任务在引入 Agent Lightning 后均实现稳定且显著的奖励提升,表明该框架能有效引导 LLM 代理优化策略,提升任务完成质量与可靠性。 行业专家认为,Agent Lightning 的发布标志着 LLM 代理系统向可训练、可优化方向迈出关键一步。其“无侵入式”设计降低了应用门槛,尤其适合企业级智能代理系统的迭代升级。相比传统 RL 方法依赖人工设计奖励或模拟环境,Agent Lightning 通过真实用户行为数据驱动训练,更具现实意义。此外,其与 OpenAI API 的兼容性增强了生态整合能力,有望加速 AI 代理在金融、客服、研发等场景的落地。微软在 AI 代理基础设施领域的持续投入,进一步巩固了其在生成式 AI 与智能自动化领域的领先地位。

Verwandte Links