FlowReasoner：强化查询级元代理

Hongcheng Gao, Yue Liu, Yufei He, Longxu Dou, Chao Du, Zhijie Deng, Bryan Hooi, Min Lin, Tianyu Pang

发布日期: 4/23/2025

摘要

本文提出了一种名为FlowReasoner的查询级元代理，用于自动化设计针对每个用户查询的查询级多代理系统。我们的核心理念是通过外部执行反馈激励基于推理的元代理。具体而言，通过提炼DeepSeek R1，我们首先赋予FlowReasoner生成多代理系统的基本推理能力。然后，我们进一步通过强化学习（Reinforcement Learning, RL）和外部执行反馈来提升其能力。设计了一种多用途奖励机制，从性能、复杂性和效率等方面引导RL训练。以此方式，FlowReasoner能够通过审慎推理为每个用户查询生成个性化的多代理系统。在工程和竞赛代码基准测试上的实验结果证明了FlowReasoner的优越性。值得注意的是，在三个基准测试中，其准确率比o1-mini高出10.52%。代码可在https://github.com/sail-sg/FlowReasoner获取。本文提出了一种名为“FlowReasoner”的查询级元代理，用于自动化设计针对每个用户查询的查询级多代理系统（query-level multi-agent systems）。我们的核心理念是通过外部执行反馈（external execution feedback）激励基于推理的元代理（reasoning-based meta-agent）。具体而言，通过提炼DeepSeek R1模型，我们首先赋予了FlowReasoner生成多代理系统的基本推理能力。随后，我们利用强化学习（Reinforcement Learning, RL）和外部执行反馈进一步增强了其性能。为了引导强化学习训练过程，在性能、复杂度和效率等多个方面设计了一个综合奖励机制（multi-purpose reward）。这样，FlowReasoner能够通过审慎推理为每个用户查询生成个性化的多代理系统。在工程和竞赛代码基准测试中的实验结果表明了FlowReasoner的优势所在；特别地，在三个基准测试中，其准确率比o1-mini高出了10.52%。相关代码可在https://github.com/sail-sg/FlowReasoner获取。希望这个版本更符合您的要求，并且更加流畅、正式地传达了原文的信息。

查看论文详情