Command Palette
Search for a command to run...
协作式多Agent测试时强化学习用于推理
协作式多Agent测试时强化学习用于推理
Abstract
多智能体系统已演变为众多应用场景中由大语言模型(LLM)驱动的实用协作伙伴,其性能得益于智能体间的多样性与相互验证机制。然而,多智能体强化学习(MARL)的训练过程资源消耗大且不稳定:协同适应的智能体之间会产生非平稳性问题,同时奖励信号往往稀疏且方差较高。为此,我们提出多智能体推理时强化学习(Multi-Agent Test-Time Reinforcement Learning, MATTRL),一种在推理阶段注入结构化文本经验以增强多智能体协商能力的框架。MATTRL 构建了一个由专家组成的多专家团队,用于多轮对话,能够检索并整合推理阶段的实时经验,并通过共识机制达成最终决策。我们进一步研究了信用分配机制,用于构建逐轮次的经验池,并将这些经验重新注入对话流程中。在医学、数学和教育等具有挑战性的基准测试中,MATTRL 相较于多智能体基线平均提升准确率 3.67%,相较于可比的单智能体基线提升达 8.67%。消融实验系统评估了多种信用分配策略,深入分析了不同策略对训练效果的影响。MATTRL 为实现对分布偏移具有鲁棒性的多智能体推理提供了一条稳定、高效且无需调参的可行路径。
一句话摘要
来自MIT、NUS、NYU、微软、华盛顿大学、哥伦比亚大学和NTU的作者提出MATTRL,一种测试时强化学习框架,通过在推理过程中注入结构化文本经验来增强多智能体推理,利用多专家团队协作与逐轮信用分配实现共识,在无需重新训练的情况下,于医疗、数学和教育基准上均取得稳健的性能提升。
主要贡献
- 我们提出多智能体测试时强化学习(MATTRL),一种在推理阶段通过注入结构化文本经验来增强多智能体推理的框架,避免了传统多智能体强化学习训练中的不稳定性与高成本,同时在分布偏移下保持鲁棒性。
- MATTRL采用由专业化智能体组成的多专家团队,协同进行推理,通过逐轮信用分配机制,从高分发言中构建动态经验池,并将其重新注入以优化后续推理步骤。
- 在医疗、数学和教育基准上,MATTRL相较于多智能体基线平均准确率提升3.67%,相较于单智能体基线提升8.67%,消融实验表明不同信用分配策略对性能有显著影响。
引言
作者针对由大语言模型(LLMs)驱动的多智能体系统中稳健、可扩展推理的挑战展开研究,其中协作通过多样性与交叉验证提升性能,但受限于多智能体强化学习(MARL)的不稳定性与高成本。先前方法在共适应智能体带来的非平稳性以及稀疏、高方差奖励方面表现不佳,限制了泛化能力并需要大量训练。为克服这些问题,作者提出多智能体测试时强化学习(MATTRL),一种在推理阶段通过将结构化文本经验注入多轮智能体讨论中来增强推理的框架。MATTRL不更新模型权重,而是利用从高分发言中动态构建的经验池来调节智能体行为,信用分配策略决定哪些贡献被保留。这使得系统能够在不牺牲原始能力的前提下实现快速、对分布偏移鲁棒的适应。在医疗诊断、数学和教育基准上的实验表明,MATTRL相较于多智能体基线准确率提升3.67%,相较于单智能体模型提升8.67%,充分证明了其有效性和高效性。
数据集
- 数据集由三个领域特定子集组成:医学、数学和教育,每个子集旨在评估多智能体协作的不同方面。
- 在医学领域,数据集采用RareBench(Chen et al., 2024b)任务4,聚焦罕见病的鉴别诊断,包含2,185例患者病例,覆盖421种疾病。任务被建模为多智能体会诊,由主治智能体协调各领域专家提出、批判并优化诊断。
- 在数学领域,数据集采用HLE(Humanity's Last Exam),包含856道纯文本专家级问题,通过LLM判断的精确匹配求解率评估协作解题能力。
- 在教育领域,数据集源自从SuperGPQA(Du et al., 2025)中随机抽取的300道题目,模拟三阶段教学互动:前测、教学指导与后测。GPT-4o学生首先作答,GPT-5教师提供两轮反馈,学生重新作答;学习增益以后测与前测准确率之差(ΔAcc)衡量。
- 医学领域的专家池包含24个核心住院与门诊专科,旨在平衡广度与深度,以高效组建多学科团队(MDT)。
- 教学法专家池涵盖学术、教学与跨学科领域专家,支持针对教学支持的精准团队构建。
- 作者采用无训练、测试时经验设置:多个智能体(3名专家 + 主治)最多进行3轮对话,独立生成并优化回答,期间定期同步。
- 在经验构建方面,作者从30个随机选取案例的智能体交互中提取得分最高的25%发言,构建用于引导后续推理的精炼经验语料库。
- 模型性能使用领域特定指标评估:医学使用Hit@k与MRR,数学使用精确匹配准确率,教育使用学习增益(ΔAcc)。
- 所有模型,包括基线与提出的MATTRL框架,均基于GPT-5(OpenAI, 2025)构建。
方法
作者采用一种多专家团队协作框架,旨在跨多样化领域实现结构化、有界且基于证据的决策。整体架构分为三个阶段,每阶段均贡献于连贯且可审计的流程。框架以任务记录X、协调智能体LLMCoo、专家智能体目录SP以及测试时经验池E为输入。流程由协调智能体启动,根据任务上下文从目录中选择专家团队,此过程称为团队组建。该阶段基于预定义的专家目录,确保角色选择受控且可解释。选定团队随后进入同步的多轮讨论过程,最多进行Rmax轮。每轮中,未收敛的专家从经验池E中检索相关经验以更新其观点。检索机制采用密集向量索引,使用共享编码器(Qwen3-Embedding-4B)与FAISS索引,基于余弦相似度选取前K条记录。检索到的经验通过标准化的“EXPERIENCE HINTS”模板附加至专家提示中,提供咨询性指导,无需逐字复现。每轮结束后,专家的增量更新被聚合为共享公告,再分发给所有成员以对齐信念,防止重复讨论。当某专家不再提出新修改时,标记为已收敛。流程在所有专家收敛或达到轮次上限时终止。最终阶段由协调智能体将团队累积证据整合为讨论报告,用于生成最终决策。此证据聚合与决策分离的设计增强了可控性与可审计性。该框架在多个领域实现实例化,包括医疗诊断、数学问题求解与教学,展示了其领域通用性。
测试时经验构建过程是系统能够从过往交互中学习并复用有价值洞见的关键组件。给定一个多智能体对话记录,框架使用LLM评判器根据领域相关标准评估每位专家发言,生成个体得分si,t。该得分与终端团队级结果信号G结合,计算每轮中每个智能体的轮次级奖励ri,t。奖励为个体得分与衰减后的、基于贡献加权的终端结果份额的加权组合,后期轮次获得更高权重。将奖励高于阈值τ的高价值发言选中用于经验提取。这些发言随后通过LLM摘要器提炼为结构化文本经验条目。每条条目为紧凑、可检索的记录,包含最小任务上下文、采取的可操作步骤及分配信用的简短理由。这些条目被存储于测试时经验池E中,用于在后续讨论中增强专家的推理。
该框架设计强调结构化输出与最小化、角色特定的提示,以简化下游聚合与评估。在医学领域,系统实例化为罕见病鉴别诊断的多学科团队(MDT)工作流,每轮专家生成严格前10名列表。在数学领域,团队组建过程被调整为允许自由招募,协调智能体根据当前问题提出少量定制化的专家描述。协作协议包含结构化同行评审,每位专家的尝试由同行评估,仅当所有裁决为正面且无问题时才被接受。这确保了高水平的推理质量与收敛性。经验增强提示使用标准化注入模板,将检索到的经验整合至基础诊断指令中,提升校准度与边缘模式覆盖范围。
在教育领域,框架被调整为多专家协作,以指导学生解决问题。系统包含诊断员、教学策略师与学科专家,进行多轮教学会话。流程始于学生的前测答案与推理,专家团队据此引导学生回答一系列问题。经验构建过程被调整为生成教学经验,用于指导教师智能体的战略思考。检索到的经验用于识别学生错误模式,并将成功教学策略适配至特定学生的推理与错误特征。该方法确保教学过程既高效又个性化。
实验
- MATTRL在医疗、数学和教育任务中均优于单智能体与多智能体基线,得益于测试时协作适应与结构化经验整合。
- 在医学任务(RareBench)中,MATTRL达到Hit@k = 0.565(k=1,3,5,10)与MRR = 0.51,超越MDAgent(0.515)与RareAgents-Refined(0.528),在Hit@1与Hit@10上显著提升,表明精度与覆盖范围增强。
- 在数学(HLE)中,MATTRL达到0.36精确匹配准确率,较多智能体讨论(0.33)提升0.03,较单智能体基线(0.27)提升0.09,表明测试时经验显著增强问题求解能力。
- 在教育(SuperGPQA)中,MATTRL实现后测准确率0.77(ΔAcc = 0.33),几乎为单智能体基线增益(ΔAcc = 0.16)的两倍,凸显其在教学与误解纠正中的有效性。
- Difference奖励在信用分配中优于Naive与Shapley风格近似,取得最高Hit@1/3(0.40/0.53),因其更尖锐、低方差的信用信号减少了搭便车行为,提升了高排名精度。
- 采用自适应路由机制在单智能体CoT与MATTRL之间选择,相较单智能体提升10%,相较MATTRL提升5.5%,路由依据为任务复杂度与专业领域差异。
- 团队规模分析显示,三智能体时性能最优:Hit@1在三智能体时达到峰值并随规模扩大而下降,而Hit@10则从更大团队中获益最多,表明精度与召回之间存在权衡。
- MATTRL的结构化经验整合(通用与疾病特定)显著优于少样本提示,后者仅小幅提升Hit@1且损害整体召回,证实经验质量与整合方式比原始上下文更为关键。
作者使用MATTRL提升医学任务的检索质量,达到最高Hit@10(0.75)与MRR(0.51),超越MDAgent与RareAgents-Refined。结果表明,MATTRL显著提升高排名精度与短名单覆盖范围,说明测试时协作适应带来的收益超越了提示优化本身。

结果表明,Difference方法在Hit@1与Hit@3上取得最高分,优于Naive与Shapley在这些指标上的表现,而所有方法在Hit@5与Hit@10上表现相近。作者认为Difference方法的优越性源于其能够隔离决定性轮次并产生更尖锐的信用峰值,从而提升高排名精度。

结果表明,MATTRL在所有指标上均优于RareAgents + Fewshot,达到更高的Hit@1、Hit@3、Hit@5与Hit@10。相较于RareAgents + Fewshot的提升在Hit@1与Hit@3上最为显著,表明其在高排名精度上更优,而在Hit@5与Hit@10上增益较小,说明MATTRL的优势源于结构化经验整合,而非简单增加上下文。

结果表明,Adaptive方法在Hit@1上取得最高分0.45,优于单智能体与MATTRL基线。其在Hit@3、Hit@5与Hit@10上也表现最佳,表明自适应路由策略能有效结合单智能体与多智能体方法的优势,适用于不同检索阈值。

结果表明,MATTRL在HLE数学问题上达到最高精确匹配准确率0.36,优于单智能体基线(0.27)与多智能体方法(0.33),表明测试时经验能显著提升协作求解能力,超越单纯讨论。
