9 小时前

Xiyuan Yang Jiaru Zou Rui Pan Ruizhong Qiu Pan Lu Shizhe Diao Jindong Jiang Hanghang Tong Tong Zhang Markus J. Buehler

摘要

递归式或循环式语言模型（Recursive or looped language models）近期作为一种新的缩放维度应运而生。其核心思想是通过在潜在状态（latent states）上迭代地精化同一模型的计算，从而深化推理过程。本文将此类缩放原则从单模型扩展至多智能体系统，并探讨核心问题：智能体的协作本身能否通过递归实现扩展？为此，我们提出了 RecursiveMAS，这是一个递归式多智能体框架，将整个系统视为一个统一的潜在空间递归计算过程。RecursiveMAS 通过轻量级的 RecursiveLink 模块将异构智能体连接为协作回路，实现了分布内潜在思维的生成以及跨智能体的潜在状态传递。为了优化我们的框架，我们开发了一种内-外循环学习算法，通过在递归轮次间共享基于梯度的信用分配，实现整个系统的迭代协同优化。对运行时复杂度和学习动力学的理论分析表明，RecursiveMAS 比标准的基于文本的多智能体系统（MAS）效率更高，且在递归训练过程中能保持梯度的稳定性。在实证方面，我们在 4 种具有代表性的智能体协作模式下实例化 RecursiveMAS，并在涵盖数学、科学、医学、搜索和代码生成的 9 个基准测试中进行了评估。与先进的单/多智能体及递归计算基线相比，RecursiveMAS 平均准确率提升了 8.3%，端到端推理速度提升了 1.2 至 2.4 倍，同时 token 使用量减少了 34.6% 至 75.6%。代码和数据已提供在 https://recursivemas.github.io。

一句话总结

RecursiveMAS 通过将异构 Agent 连接至轻量级 RecursiveLink 模块，实现了统一的潜空间递归计算，从而将递归扩展技术应用于多 Agent 系统。该框架通过内-外循环学习算法进行优化，在涵盖数学、科学、医学、搜索和代码生成的九个基准测试中，实现了平均 8.3% 的准确率提升、1.2×–2.4× 的端到端推理加速，以及 34.6%–75.6% 的 token 数量减少。

核心贡献

RecursiveMAS 通过将多 Agent 系统视为统一的潜空间计算，将递归扩展技术应用于协作式 AI。该框架通过轻量级 RecursiveLink 模块连接异构 Agent，实现了分布内潜思维生成与直接的跨 Agent 状态转移。
内-外循环学习算法通过迭代式全系统协同优化以及跨递归轮次的共享基于梯度的信用分配来优化系统。理论分析表明，该方法在递归训练期间能够维持稳定的梯度，并实现了低于标准基于文本的多 Agent 系统的运行时复杂度。
在涵盖数学、科学、医学、搜索和代码生成的九个基准测试上的评估表明，该方法在先进单 Agent、多 Agent 及递归计算基线模型上均实现了持续的性能提升。该框架带来了平均 8.3% 的准确率增益、1.2 倍至 2.4 倍的端到端推理加速，以及 34.6% 至 75.6% 的 token 使用量降低。

引言

大语言模型在处理复杂推理任务时常常面临挑战，这推动了多 Agent 系统的采用，该系统通过将任务分配给专用模型来实现性能扩展。然而，传统的基于文本的协作会引入显著的延迟，并阻碍直接的系统级优化，因为现有方法要么依赖于表面的提示词调整，要么需要成本高昂的孤立训练。研究人员利用递归计算提出了 RecursiveMAS，该框架将多 Agent 交互视为统一的潜空间循环。通过将信息路由至轻量级 RecursiveLink 模块并应用内-外循环训练范式，该系统在不更新完整模型参数的情况下迭代优化共享表示。该设计维持了稳定的梯度传播，降低了 token 使用量与推理时间，并在多种推理基准测试中实现了持续的准确率提升。

数据集

数据集构成与来源： 评估涵盖四个主要领域：数学推理、科学与医学任务、代码生成以及基于搜索的问答。训练监督目标由涵盖这些领域的四个精选来源构建：s1K、m1K、OpenCodeReasoning 和 ARPO-SFT。
各子集关键细节： MATH500 提供涵盖代数、几何和概率的标准基准。AIME2025 与 AIME2026 各贡献 30 道高度复杂的竞赛题目，要求进行精确的数值推导。GPQA-Diamond 提供生物学、物理学和化学领域的研究生级别多项选择题。MedQA 提供侧重于临床推理与诊断决策的医学执照风格题目。LiveCodeBench-v6 包含防污染编程问题及隐藏测试用例。MBPP Plus 通过更严格的基于执行的评估标准扩展了 Python 合成任务。HotpotQA 利用维基百科证据测试多跳推理能力。Bamboogle 提供了一个需要中间检索与答案组合的紧凑基准。
数据使用方法： 原始问答对会被转换为针对四种协作模式定制的角色特定监督目标，而非固定的混合比例。在 Sequential-Style（顺序式）训练中，大型参考模型将答案重写为 Planner 的初始分步计划、Critic 的批评引导计划，并保留原始答案供 Solver 使用。Mixture-Style（混合式）训练使用各专家生成的领域特定响应进行自我监督，而真实答案用于训练 Summarizer。Distillation-Style（蒸馏式）训练利用 Expert 模型提供的引导式响应来训练 Expert agent，而 Learner 则直接接受真实答案的监督。Deliberation-Style（深思式）训练将真实答案应用于同时监督 Reflector 和 Tool-Caller agent。随后，每个 agent 被分配专用的输入输出对以进行独立微调，基础模型参数保持冻结，仅更新 RecursiveLink 组件。
其他处理与评估细节： 所有非代码输出会经过标准化处理，包括去除空白字符与标点符号并转换为小写，随后执行特定任务的正确性校验。数值任务验证数学等价性，多项选择题要求精确匹配字母，代码任务则通过沙盒执行进行验证，每个测试用例限制 10 秒超时。基于搜索的任务使用参考大语言模型作为二元裁判来评估答案正确性。MATH500 的生成上限为 2000 token，大多数科学与代码基准为 4000 token，AIME 竞赛为 16000 token。触及这些上限的输出会触发早停机制，并追加最终答案提示词以生成响应。

方法

RecursiveMAS 框架引入了一种递归多 Agent 系统，旨在通过潜空间交互增强协作推理。该架构围绕两个核心组件构建：用于 Agent 内部潜思维生成的内层 RecursiveLink，以及用于 Agent 间信息传递的外层 RecursiveLink，从而在异构 Agent 之间实现无缝的递归循环。整个系统作为一个闭环网络运行，每个 Agent 均参与共享推理过程，信息通过这些链接在 Agent 内部及跨 Agent 之间流动。

该框架从单个 Agent 开始，每个 Agent 均建模为基于 Transformer 的语言模型，在连续嵌入空间中生成潜思维。这一过程通过将 Agent 最后一层的隐藏状态反馈至其输入层来实现，从而在潜空间中有效构建自回归过程。该机制被称为潜思维生成，允许 Agent 在不进行显式 token 解码的情况下迭代优化内部状态。核心创新在于 RecursiveLink，这是一个促进潜状态转换的轻量级模块。内层 RecursiveLink 负责将 Agent 的输出嵌入转换为其下一次前向传播的输入嵌入。它采用残差连接，将原始潜嵌入与转换后嵌入的投影版本相加，在允许分布对齐的同时确保原始语义的保留。该设计对稳定高效的训练至关重要，因为它使网络能够专注于学习必要的调整，而非从头重建完整表示。

外层 RecursiveLink 将该机制扩展至不同 Agent 之间，使具有潜在不同隐藏维度的异构模型能够进行通信。它通过额外的线性变换层 $W_3$ ，将源 Agent $A_i$ 的输出嵌入映射到目标 Agent $A_j$ 的输入嵌入空间来实现这一目标。这使得系统能够利用不同模型的互补优势，例如专用数学 Agent 或代码生成器，将其精炼的潜思维直接传递给序列中的下一个 Agent。如框架示意图所示，Agent 以循环方式连接：最后一个 Agent 的输出会反馈至第一个 Agent，从而形成递归结构。该循环支持渐进式优化，使每个 Agent 能够在多轮交互中迭代反思并基于系统的集体潜状态进行构建。

RecursiveMAS 的训练过程分为两个独立阶段以有效优化系统。第一阶段为初步内循环训练，侧重于为每个 agent 赋予生成高质量潜思维的能力。该阶段独立训练每个 agent 的内层 RecursiveLink。给定训练样本，agent 生成一系列潜思维，训练目标是通过余弦相似度损失将最终潜思维分布与真实答案的输入嵌入对齐。此步骤确保每个 agent 能够生成具有语义意义的潜表示，从而捕捉解决方案的核心。

第二阶段为递归外循环训练，将整个系统作为统一实体进行协同优化。在此阶段，系统在多个递归轮次中展开，外层 RecursiveLink 将循环中的 Agent 连接起来。训练过程包含前向传播（信息流经各 Agent 并返回首个 Agent）与反向传播（基于最终文本预测计算梯度）。交叉熵损失应用于最后一轮递归后最后一个 Agent 的输出，梯度随后沿整个递归路径反向传播。这使得外层链接能够学习如何最佳地跨 Agent 传递信息，确保系统集体输出随时间持续改进。架构的稳定性与效率还得到了理论分析的支持，分析表明，与存在梯度消失问题的基于文本的通信相比，潜空间交互能够带来更稳定的梯度传播。如图所示的完整训练流程整合了上述阶段，首先对 Agent 进行预热启动，随后通过递归循环联合优化整个系统。

实验

在数学、科学、代码生成和搜索基准测试上的综合评估，将 RecursiveMAS 与单 Agent 微调模型、其他多 Agent 框架及基于文本的递归基线进行了对比验证。针对不同递归深度与协作模式的实验表明，随着递归加深，该系统持续提升推理准确率与计算效率。架构分析进一步证实，潜空间交互能够有效对齐语义表示，最小化训练开销，并无缝泛化至多种多 Agent 结构。最终，该研究确立了 RecursiveMAS 作为一种可扩展框架的地位，其利用迭代潜优化在保持卓越效率的同时超越现有方法。

研究人员在 Mixture-Style（混合式）协作模式下评估 RecursiveMAS，将其性能与多个任务中的独立专家 Agent 进行对比。结果表明，RecursiveMAS 在各领域的表现均持续优于最佳单专家 Agent，展现出有效整合并利用多样化专业知识的能力。该性能优势在需要跨领域推理的任务中尤为明显，协作系统在此类任务中实现了高于任何单 Agent 的准确率。在 Mixture-Style 协作模式下，RecursiveMAS 在所有评估领域均优于独立专家 Agent。协作系统实现了高于单 Agent 的准确率，尤其在需要跨领域整合的任务中表现突出。RecursiveMAS 在多样化任务中展现出一致的性能增益，表明其实现了专业知识的有效整合。

研究人员在不同递归深度下评估 RecursiveMAS，并将其性能与基于文本的递归基线进行对比。结果表明，随着递归深度增加，RecursiveMAS 在推理速度与 token 效率上实现持续改进，且在更高递归轮次中展现出更显著的优势。与基于文本的方法相比，该方法在潜空间协作中表现出可扩展性与效率提升。相较于基于文本的基线，RecursiveMAS 的推理加速比与 token 减少量随递归深度增加而提升。RecursiveMAS 的性能与效率优势在更深递归中愈发明显。RecursiveMAS 在不同递归轮次中保持持续增益，表明其具备可扩展且高效的潜空间协作能力。

研究人员在 deliberation-style（深思式）多 Agent 环境中评估 RecursiveMAS，将其性能与 Reflector 和 Tool-Caller 等基线 Agent 在多个任务中进行对比。结果表明，RecursiveMAS 在所有评估基准上的准确率均高于基线模型，证明其在增强协作推理方面的有效性。该方法持续优于独立 Agent，表明递归交互改善了系统级协调与推理能力。RecursiveMAS 在所有测试任务中均取得高于 Reflector 和 Tool-Caller 的准确率。在深思式架构下，RecursiveMAS 优于独立 Agent，展现出改进的协作推理能力。该方法相较于基线模型展现出一致的性能增益，表明系统级优化效果显著。

研究人员在 distillation-style（蒸馏式）多 Agent 系统中，于多个基准测试上对比了 RecursiveMAS 与专家模型及学习者模型的性能。结果表明，RecursiveMAS 在所有任务上的准确率均高于学习者模型，同时显著降低了推理时间。与专家模型相比，RecursiveMAS 在某些任务上表现更优，在其他任务上准确率略低，但在所有领域均持续节省时间。RecursiveMAS 在所有评估任务中均取得高于学习者模型的准确率，且推理耗时更少。与专家模型和学习者模型相比，RecursiveMAS 在所有领域均大幅缩短推理时间。RecursiveMAS 在准确率上优于学习者模型，同时相较于专家模型保持着显著的速度优势。

研究人员在 GPQA-Diamond 基准上分析了不同递归深度下 RecursiveMAS 的性能，结果显示准确率随递归深度增加而提升。结果表明，性能随递归加深呈现一致的上升趋势，说明系统受益于迭代优化。在更高递归层级中，性能提升愈发明显，表明该方法能够随递归深度增加有效扩展。准确率随递归深度增加而提高，更深层级表现出更高性能。性能增益在更深递归中愈发显著，表明扩展性良好。RecursiveMAS 在不同递归轮次中展现持续改进，说明迭代优化为系统带来收益。

研究人员在 mixture-style（混合式）、deliberation-style（深思式）与 distillation-style（蒸馏式）协作范式下评估 RecursiveMAS，并针对各类 Agent 基线开展了系统性的递归深度变化测试。混合式与深思式架构验证了该框架整合多样化专业知识与增强协作推理的能力，而蒸馏式配置则证明其在平衡准确率与计算效率方面的优势。定性分析表明，该系统持续优于独立专家与标准基线，尤其在跨领域任务与迭代优化场景中表现突出。此外，增加递归深度会逐步放大性能与效率优势，证实了该方法在潜空间协作中具备稳健的可扩展性。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

9 小时前

Agent

LLM

Xiyuan Yang Jiaru Zou Rui Pan Ruizhong Qiu Pan Lu Shizhe Diao Jindong Jiang Hanghang Tong Tong Zhang Markus J. Buehler

摘要

一句话总结

核心贡献

RecursiveMAS 通过将多 Agent 系统视为统一的潜空间计算，将递归扩展技术应用于协作式 AI。该框架通过轻量级 RecursiveLink 模块连接异构 Agent，实现了分布内潜思维生成与直接的跨 Agent 状态转移。
内-外循环学习算法通过迭代式全系统协同优化以及跨递归轮次的共享基于梯度的信用分配来优化系统。理论分析表明，该方法在递归训练期间能够维持稳定的梯度，并实现了低于标准基于文本的多 Agent 系统的运行时复杂度。
在涵盖数学、科学、医学、搜索和代码生成的九个基准测试上的评估表明，该方法在先进单 Agent、多 Agent 及递归计算基线模型上均实现了持续的性能提升。该框架带来了平均 8.3% 的准确率增益、1.2 倍至 2.4 倍的端到端推理加速，以及 34.6% 至 75.6% 的 token 使用量降低。

引言

数据集

数据集构成与来源： 评估涵盖四个主要领域：数学推理、科学与医学任务、代码生成以及基于搜索的问答。训练监督目标由涵盖这些领域的四个精选来源构建：s1K、m1K、OpenCodeReasoning 和 ARPO-SFT。
各子集关键细节： MATH500 提供涵盖代数、几何和概率的标准基准。AIME2025 与 AIME2026 各贡献 30 道高度复杂的竞赛题目，要求进行精确的数值推导。GPQA-Diamond 提供生物学、物理学和化学领域的研究生级别多项选择题。MedQA 提供侧重于临床推理与诊断决策的医学执照风格题目。LiveCodeBench-v6 包含防污染编程问题及隐藏测试用例。MBPP Plus 通过更严格的基于执行的评估标准扩展了 Python 合成任务。HotpotQA 利用维基百科证据测试多跳推理能力。Bamboogle 提供了一个需要中间检索与答案组合的紧凑基准。
数据使用方法： 原始问答对会被转换为针对四种协作模式定制的角色特定监督目标，而非固定的混合比例。在 Sequential-Style（顺序式）训练中，大型参考模型将答案重写为 Planner 的初始分步计划、Critic 的批评引导计划，并保留原始答案供 Solver 使用。Mixture-Style（混合式）训练使用各专家生成的领域特定响应进行自我监督，而真实答案用于训练 Summarizer。Distillation-Style（蒸馏式）训练利用 Expert 模型提供的引导式响应来训练 Expert agent，而 Learner 则直接接受真实答案的监督。Deliberation-Style（深思式）训练将真实答案应用于同时监督 Reflector 和 Tool-Caller agent。随后，每个 agent 被分配专用的输入输出对以进行独立微调，基础模型参数保持冻结，仅更新 RecursiveLink 组件。
其他处理与评估细节： 所有非代码输出会经过标准化处理，包括去除空白字符与标点符号并转换为小写，随后执行特定任务的正确性校验。数值任务验证数学等价性，多项选择题要求精确匹配字母，代码任务则通过沙盒执行进行验证，每个测试用例限制 10 秒超时。基于搜索的任务使用参考大语言模型作为二元裁判来评估答案正确性。MATH500 的生成上限为 2000 token，大多数科学与代码基准为 4000 token，AIME 竞赛为 16000 token。触及这些上限的输出会触发早停机制，并追加最终答案提示词以生成响应。

方法

实验

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

递归多智能体系统

Xiyuan Yang Jiaru Zou Rui Pan Ruizhong Qiu Pan Lu Shizhe Diao Jindong Jiang Hanghang Tong Tong Zhang Markus J. Buehler2 more

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

递归多智能体系统

Xiyuan Yang Jiaru Zou Rui Pan Ruizhong Qiu Pan Lu Shizhe Diao Jindong Jiang Hanghang Tong Tong Zhang Markus J. Buehler2 more

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

递归多智能体系统

Xiyuan Yang Jiaru Zou Rui Pan Ruizhong Qiu Pan Lu Shizhe Diao Jindong Jiang Hanghang Tong Tong Zhang Markus J. Buehler2 more

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Xiyuan Yang Jiaru Zou Rui Pan Ruizhong Qiu Pan Lu Shizhe Diao Jindong Jiang Hanghang Tong Tong Zhang Markus J. Buehler

Xiyuan Yang Jiaru Zou Rui Pan Ruizhong Qiu Pan Lu Shizhe Diao Jindong Jiang Hanghang Tong Tong Zhang Markus J. Buehler

Xiyuan Yang Jiaru Zou Rui Pan Ruizhong Qiu Pan Lu Shizhe Diao Jindong Jiang Hanghang Tong Tong Zhang Markus J. Buehler