HyperAIHyperAI

Command Palette

Search for a command to run...

Console
4 天前

DoVer:基于干预驱动的LLM多智能体系统自动调试

Ming Ma Jue Zhang Fangkai Yang Yu Kang Qingwei Lin Saravan Rajmohan Dongmei Zhang

DoVer:基于干预驱动的LLM多智能体系统自动调试

摘要

基于大语言模型(LLM)的多智能体系统在调试方面面临显著挑战,其故障往往源于复杂且高度分支的交互轨迹。当前主流做法是利用LLM进行基于日志的故障定位,将错误归因于特定智能体及特定步骤。然而,这一范式存在两个关键局限:(i)仅依赖日志的调试缺乏验证机制,导致生成的假设未经实际检验;(ii)单一步骤或单一智能体的归因通常缺乏合理性,因为我们发现,多个不同的干预措施均可独立修复失败的任务。为应对第一个局限,本文提出DoVer——一种以干预驱动的调试框架,通过有针对性的干预手段(如编辑消息、修改计划)主动验证假设,从而增强假设生成的可靠性。针对第二个局限,我们摒弃传统以归因准确率为评价标准的做法,转而关注系统是否真正解决了故障或是否实现了可量化的任务进展,从而体现一种更注重结果导向的调试视角。在Magnetic-One智能体框架下,基于GAIA与AssistantBench数据集的实验表明,DoVer可将18%至28%的失败实验转化为成功案例,实现最高达16%的任务里程碑进展,并验证或证伪30%至60%的故障假设。此外,在另一数据集GSMPlus与另一智能体框架AG2上的测试中,DoVer同样表现出色,成功恢复了49%的失败案例。上述结果表明,干预机制是提升智能体系统可靠性的切实可行路径,并为构建更稳健、可扩展的LLM驱动多智能体系统调试方法开辟了新方向。项目官网与代码将公开于 https://aka.ms/DoVer

摘要

研究人员提出了一种名为DoVer的干预驱动调试框架,用于LLM代理系统。该框架通过主动验证失败假设来定位和修复错误,将调试过程从错误归因转变为结果改进。DoVer在多个基准测试中表现出色,显著提高了代理系统的可靠性。

主要贡献

  1. 提出DoVer框架:一种新的干预驱动调试框架,通过主动测试失败假设来定位和修复错误
  2. 验证方法:通过干预来验证或反驳失败假设,而不是依赖静态分析
  3. 实验评估:在多个基准测试中验证了框架的有效性

方法

DoVer框架包含以下关键组件:

  1. 失败假设生成:代理系统生成关于失败原因的假设
  2. 干预生成:基于假设生成具体的干预措施
  3. 干预执行:执行干预并观察结果
  4. 假设验证:根据执行结果验证或反驳假设

实验结果

在GAIA基准测试中,DoVer实现了18–28%的修复率,显著优于基线方法。在SWE-bench测试中,修复率从11.3%提升至14.2%。

结论

DoVer提供了一种有效的LLM代理调试方法,通过主动干预验证假设,显著提高了系统的可靠性和性能。该框架具有良好的通用性,可应用于不同的LLM和任务场景。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供