2 个月前

摘要

基于大语言模型（LLM）的多智能体系统在调试方面面临显著挑战，其故障往往源于复杂且高度分支的交互轨迹。当前主流做法是利用LLM进行基于日志的故障定位，将错误归因于特定智能体及特定步骤。然而，这一范式存在两个关键局限：（i）仅依赖日志的调试缺乏验证机制，导致生成的假设未经实际检验；（ii）单一步骤或单一智能体的归因通常缺乏合理性，因为我们发现，多个不同的干预措施均可独立修复失败的任务。为应对第一个局限，本文提出DoVer——一种以干预驱动的调试框架，通过有针对性的干预手段（如编辑消息、修改计划）主动验证假设，从而增强假设生成的可靠性。针对第二个局限，我们摒弃传统以归因准确率为评价标准的做法，转而关注系统是否真正解决了故障或是否实现了可量化的任务进展，从而体现一种更注重结果导向的调试视角。在Magnetic-One智能体框架下，基于GAIA与AssistantBench数据集的实验表明，DoVer可将18%至28%的失败实验转化为成功案例，实现最高达16%的任务里程碑进展，并验证或证伪30%至60%的故障假设。此外，在另一数据集GSMPlus与另一智能体框架AG2上的测试中，DoVer同样表现出色，成功恢复了49%的失败案例。上述结果表明，干预机制是提升智能体系统可靠性的切实可行路径，并为构建更稳健、可扩展的LLM驱动多智能体系统调试方法开辟了新方向。项目官网与代码将公开于 https://aka.ms/DoVer。

摘要

研究人员提出了一种名为DoVer的干预驱动调试框架，用于LLM代理系统。该框架通过主动验证失败假设来定位和修复错误，将调试过程从错误归因转变为结果改进。DoVer在多个基准测试中表现出色，显著提高了代理系统的可靠性。

主要贡献

提出DoVer框架：一种新的干预驱动调试框架，通过主动测试失败假设来定位和修复错误
验证方法：通过干预来验证或反驳失败假设，而不是依赖静态分析
实验评估：在多个基准测试中验证了框架的有效性

方法

DoVer框架包含以下关键组件：

失败假设生成：代理系统生成关于失败原因的假设
干预生成：基于假设生成具体的干预措施
干预执行：执行干预并观察结果
假设验证：根据执行结果验证或反驳假设

实验结果

在GAIA基准测试中，DoVer实现了18–28%的修复率，显著优于基线方法。在SWE-bench测试中，修复率从11.3%提升至14.2%。

结论

DoVer提供了一种有效的LLM代理调试方法，通过主动干预验证假设，显著提高了系统的可靠性和性能。该框架具有良好的通用性，可应用于不同的LLM和任务场景。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

2 个月前

Ming Ma Jue Zhang Fangkai Yang Yu Kang Qingwei Lin Saravan Rajmohan Dongmei Zhang

摘要

主要贡献

提出DoVer框架：一种新的干预驱动调试框架，通过主动测试失败假设来定位和修复错误
验证方法：通过干预来验证或反驳失败假设，而不是依赖静态分析
实验评估：在多个基准测试中验证了框架的有效性

方法

DoVer框架包含以下关键组件：

失败假设生成：代理系统生成关于失败原因的假设
干预生成：基于假设生成具体的干预措施
干预执行：执行干预并观察结果
假设验证：根据执行结果验证或反驳假设

实验结果

在GAIA基准测试中，DoVer实现了18–28%的修复率，显著优于基线方法。在SWE-bench测试中，修复率从11.3%提升至14.2%。

结论

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

DoVer：基于干预驱动的LLM多智能体系统自动调试

Ming Ma Jue Zhang Fangkai Yang Yu Kang Qingwei Lin Saravan Rajmohan Dongmei Zhang

摘要

摘要

主要贡献

方法

实验结果

结论

用 AI 构建 AI

HyperAI Newsletters

Command Palette

DoVer：基于干预驱动的LLM多智能体系统自动调试

Ming Ma Jue Zhang Fangkai Yang Yu Kang Qingwei Lin Saravan Rajmohan Dongmei Zhang

摘要

摘要

主要贡献

方法

实验结果

结论

用 AI 构建 AI

HyperAI Newsletters

Command Palette

DoVer：基于干预驱动的LLM多智能体系统自动调试

Ming Ma Jue Zhang Fangkai Yang Yu Kang Qingwei Lin Saravan Rajmohan Dongmei Zhang

摘要

摘要

主要贡献

方法

实验结果

结论

用 AI 构建 AI

HyperAI Newsletters