HyperAIHyperAI

Command Palette

Search for a command to run...

مايكروسوفت تطلق إطار Agent Lightning لتعزيز تدريب نماذج اللغة الكبيرة عبر التعلم بالتعزيز

微软近日推出开源框架 Agent Lightning,旨在通过强化学习(RL)提升多代理系统的性能,尤其在大规模语言模型(LLM)的训练优化方面展现出显著潜力。该框架无需重构现有代理架构,即可将真实代理行为转化为可用于训练的强化学习过渡数据,从而实现策略的持续改进。 Agent Lightning 将代理视为一个部分可观测的马尔可夫决策过程(POMDP),其中代理的“观察”对应当前输入,“行动”为模型调用(如工具调用或API请求),而“奖励”可来自最终结果或中间反馈。通过捕获代理运行时的调用记录,包括输入、输出与奖励信息,框架能够有效过滤噪声,生成高质量、结构化的训练数据,为强化学习提供可靠输入。 其核心设计采用“训练代理解耦”架构:Lightning Server 负责模型训练与服务,提供与 OpenAI 兼容的 API 接口,便于新模型的无缝集成与调用;而 Lightning Client 则嵌入于现有代理运行时环境中,实时采集代理行为数据并上传至服务器。这一架构既保留了工具、浏览器等外部依赖的紧密集成,又将高成本的 GPU 训练任务集中于服务器端,兼顾效率与灵活性。 为适应不同团队的技术栈需求,Agent Lightning 支持两种数据追踪路径。默认路径基于 OpenTelemetry,可与主流遥测系统对接,实现标准化数据采集;同时提供轻量级嵌入式追踪器,适用于不愿部署复杂观测系统的团队。所有采集数据统一存储,确保训练过程的一致性与可复现性。 在实验验证中,研究团队在三项关键任务上评估了框架性能:文本转 SQL、检索增强生成(RAG)与数学问答。文本转 SQL 基于 Spider 基准,覆盖超 10,000 个复杂查询和 200 个数据库;检索增强生成任务依托 MuSiQue 基准,使用维基百科规模(2100 万文档)的索引;数学问答则基于 Calc X 数据集,依赖工具调用完成计算。结果显示,Agent Lightning 在所有任务中均实现稳定且显著的奖励提升,表明其在真实场景中具备强大的泛化能力与优化效果。 该框架的发布为构建高效、可扩展的智能代理系统提供了新路径,尤其在不改变现有系统前提下实现持续学习,具有广泛的应用前景。相关论文已发布于 arXiv(https://arxiv.org/abs/2508.03680v1),为研究者与开发者提供了完整的技术支持与实践参考。

الروابط ذات الصلة

مايكروسوفت تطلق إطار Agent Lightning لتعزيز تدريب نماذج اللغة الكبيرة عبر التعلم بالتعزيز | القصص الشائعة | HyperAI