HyperAI超神经

OWL:针对现实世界任务自动化中的通用多智能体辅助的优化劳动力学习

Mengkang Hu, Yuhang Zhou, Wendong Fan, Yuzhou Nie, Bowei Xia, Tao Sun, Ziyu Ye, Zhaoxuan Jin, Yingru Li, Qiguang Chen, Zeyu Zhang, Yifeng Wang, Qianshuo Ye, Bernard Ghanem, Ping Luo, Guohao Li
发布日期: 6/3/2025
OWL:针对现实世界任务自动化中的通用多智能体辅助的优化劳动力学习
摘要

基于大型语言模型 (LLM) 的多智能体系统有望在自动化现实世界任务方面取得进展,但由于其领域特定性,难以跨领域迁移。当前的方法面临两个关键缺陷:应用于新领域时,需要彻底重新设计架构并重新训练所有组件。我们引入了 Workforce,这是一个分层多智能体框架,它通过模块化架构将战略规划与专业执行分离,该架构包含:(i) 用于任务分解的领域无关的规划器 (Planner),(ii) 用于子任务管理的协调器 (Coordinator),以及 (iii) 具有领域特定工具调用功能的专用工作器 (Worker)。这种分离架构在推理和训练阶段均实现了跨领域的可迁移性:在推理阶段,Workforce 可以通过添加或修改工作智能体无缝适应新领域;在训练阶段,我们引入了优化工作器学习 (OWL),它通过使用来自现实世界反馈的强化学习来优化领域无关的规划器,从而提高跨领域的泛化能力。为了验证我们的方法,我们在 GAIA 基准上对 Workforce 进行了评估,涵盖了各种现实的多领域代理任务。实验结果表明,Workforce 达到了开源的 SOTA 性能(69.70%),比 OpenAI 的 Deep Research 等商业系统高出 2.34%。更值得注意的是,我们经 OWL 训练的 32B 模型达到了 52.73% 的准确率(+16.37%),并在挑战性任务上展现出与 GPT-4o 相当的性能。总而言之,通过实现可扩展的泛化和模块化领域迁移,我们的工作为下一代通用 AI 助手奠定了基础。