FlowReasoner:强化查询级元代理

本文提出了一种名为FlowReasoner的查询级元代理,用于自动化设计针对每个用户查询的查询级多代理系统。我们的核心理念是通过外部执行反馈激励基于推理的元代理。具体而言,通过提炼DeepSeek R1,我们首先赋予FlowReasoner生成多代理系统的基本推理能力。然后,我们进一步通过强化学习(Reinforcement Learning, RL)和外部执行反馈来提升其能力。设计了一种多用途奖励机制,从性能、复杂性和效率等方面引导RL训练。以此方式,FlowReasoner能够通过审慎推理为每个用户查询生成个性化的多代理系统。在工程和竞赛代码基准测试上的实验结果证明了FlowReasoner的优越性。值得注意的是,在三个基准测试中,其准确率比o1-mini高出10.52%。代码可在https://github.com/sail-sg/FlowReasoner获取。 本文提出了一种名为“FlowReasoner”的查询级元代理,用于自动化设计针对每个用户查询的查询级多代理系统(query-level multi-agent systems)。我们的核心理念是通过外部执行反馈(external execution feedback)激励基于推理的元代理(reasoning-based meta-agent)。具体而言,通过提炼DeepSeek R1模型,我们首先赋予了FlowReasoner生成多代理系统的基本推理能力。随后,我们利用强化学习(Reinforcement Learning, RL)和外部执行反馈进一步增强了其性能。为了引导强化学习训练过程,在性能、复杂度和效率等多个方面设计了一个综合奖励机制(multi-purpose reward)。这样,FlowReasoner能够通过审慎推理为每个用户查询生成个性化的多代理系统。在工程和竞赛代码基准测试中的实验结果表明了FlowReasoner的优势所在;特别地,在三个基准测试中,其准确率比o1-mini高出了10.52%。相关代码可在https://github.com/sail-sg/FlowReasoner获取。 希望这个版本更符合您的要求,并且更加流畅、正式地传达了原文的信息。