Command Palette

Search for a command to run...

2 个月前

深度研究系统中的强化学习基础:一项综述

深度研究系统中的强化学习基础:一项综述

摘要

深度研究系统(Deep Research Systems)是一种具有代理(agentic)特性的AI,能够通过协调推理、对开放网络及用户文件的搜索,以及工具调用,来解决复杂且多步骤的任务。这类系统正朝着分层部署的架构演进,包括规划器(Planner)、协调器(Coordinator)和执行器(Executors)等组件。然而,在实际应用中,端到端地训练整个系统堆栈仍不切实际,因此目前大多数研究聚焦于训练单一规划器,并将其与核心工具(如搜索、网页浏览和代码执行)相连接。监督微调(SFT)虽然能保证协议的一致性,但存在模仿偏差(imitation bias)和暴露偏差(exposure bias),且未能充分利用环境反馈。偏好对齐方法(如DPO)则依赖于特定的模式(schema)和代理指标(proxy),属于离策略(off-policy)方法,在长程信用分配(long-horizon credit assignment)和多目标权衡方面表现较弱。此外,SFT与DPO的另一个局限在于,它们高度依赖人工定义的决策点与子技能,这些均通过模式设计和标注比较来实现。相比之下,强化学习(Reinforcement Learning, RL)与闭环、工具交互的研究范式更为契合。它通过优化轨迹级策略,支持探索行为、恢复机制以及有原则的信用分配,从而降低对人类先验知识和评分者偏见的依赖。据我们所知,本综述是首个专注于深度研究系统中强化学习基础的专题综述。本文从三个维度系统梳理了自DeepSeek-R1以来的研究进展:(i)数据合成与数据集构建;(ii)面向代理式研究的强化学习方法,涵盖稳定性、样本效率、长上下文处理、奖励与信用设计、多目标优化以及多模态融合;(iii)代理式强化学习的训练系统与框架。此外,本文还涵盖了代理架构与协同机制、评估体系与基准测试,包括近期在问答(QA)、视觉问答(VQA)、长文本生成、领域对齐任务以及工具交互任务等方面的进展。本文提炼出若干反复出现的设计模式,揭示了当前基础设施中的关键瓶颈,并为训练具备鲁棒性与透明性的深度研究代理提供了切实可行的指导建议。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供