Command Palette
Search for a command to run...
AutoResearchClaw:基于人机协作的自我强化自主研究
AutoResearchClaw:基于人机协作的自我强化自主研究
摘要
标题:(无标题)摘要:实现科学发现的自动化不仅仅依赖于从想法生成论文。真正的研究是一个迭代过程:假设需要从多个角度进行检验,实验失败并为下一次尝试提供信息,且经验会在各个循环中不断积累。现有的自主研究系统通常将这一过程建模为线性流水线:它们依赖单一智能体的推理,在执行失败时停止,并且无法在不同运行之间传递经验。我们提出了 AutoResearchClaw,这是一个基于五种机制的多智能体自主研究流水线:用于假设生成和结果分析的结构性多智能体辩论;具有“枢轴/细化”决策循环的自我修复执行器,能够将失败转化为信息;可验证的结果报告机制,以防止捏造数据和幻觉引用;包含七种干预模式的人机协作流程,覆盖从完全自主到逐步监督的范围;以及跨运行进化机制,将过去的错误转化为未来的保障措施。在 ARC-Bench(一个包含 25 个主题的实验阶段基准测试)上,AutoResearchClaw 的性能比 AI Scientist v2 高出 54.7%。针对七种干预模式的人机协作消融研究表明,在高杠杆决策点进行精确、有针对性的协作,其表现始终优于完全自主和详尽的逐步监督。我们将 AutoResearchClaw 定位为一种研究放大器,旨在增强而非取代人类的科学判断。代码已开源,地址为 https://github.com/aiming-lab/AutoResearchClaw。
一句话总结
作者提出 AUTOResearchCLAW,这是一种多 Agent 自主研究流水线。该流水线通过结构化的多 Agent 辩论迭代推进科学探索,利用具备自我修复功能的 PIVOT/Refine 执行器将执行失败转化为有效信息,并通过跨运行演化机制将过往错误转化为未来的防护策略。在包含 25 个主题的 ARC-Bench 基准测试中,该系统性能超越 AI Scientist v2 达 54.7%,同时证明在七种干预模式下,针对关键节点的人工介入协作始终优于完全自主运行与全面监督模式。
核心贡献
- 本文引入 AUTOResearchCLAW,这是一种多 Agent 自主研究流水线。该流水线以结构化辩论取代线性的单 Agent 工作流,采用利用 PIVOT/Refine 决策循环的自我修复执行器,并配备跨运行演化存储库。该架构将执行失败转化为持久防护策略,同时通过可验证的报告机制防止结果伪造。
- 在包含 25 个主题的实验阶段基准测试 ARC-Bench 上的综合评估表明,该框架性能超越 AI Scientist v2 达 54.7%。该性能提升验证了多 Agent 协作与可验证结果报告在端到端科学发现中的综合有效性。
- 针对七种人工介入循环干预模式的系统性消融实验表明,在关键决策节点进行针对性的人工协作始终优于完全自主运行与详尽的逐步监督。这一实证洞察将该系统定位为研究放大器,在自动化执行与战略性人工判断之间实现最优平衡。
引言
实现科学发现的自动化需要计算系统能够应对真实研究中迭代的特性,在此过程中假设需经过压力测试,实验频繁失败,且洞察必须跨周期积累。先前的自主研究框架存在不足,因其将发现过程建模为线性流水线。这些系统通常依赖单 Agent 推理,难以识别有缺陷的假设,在代码出错时完全停止执行,且每次运行后归零重置,无法保留已习得的策略。作者通过引入 AUTOResearchCLAW 填补了这些空白。这是一个多 Agent 流水线,部署了结构化的角色辩论以强化假设生成,采用将执行失败转化为战略转折的自我修复执行器,并引入跨运行演化模块以将历史经验注入后续尝试中。通过严格的验证协议锚定输出结果,并支持灵活的人工介入循环监督,该框架证明在关键决策节点进行针对性人工干预,始终优于完全自主与全面监督的工作流。
数据集
- 数据集构成与来源: 作者提出 ARC-Bench,这是一个包含 25 个机器学习主题及 20 个科学扩展主题的结构化基准。机器学习子集涵盖表格优化、降维、自然语言处理(NLP)、AutoML 和因果发现等领域。科学扩展部分包含 10 个高能物理任务、7 个系统生物学任务和 3 个统计学任务。每个主题均配有研究问题、目标数据集或仿真参考,以及明确的交付物要求,涵盖代码、结果与分析报告。
- 关键子集详情: 该基准分为主要的 25 主题机器学习赛道与 20 主题科学赛道。主题来源于成熟的学术领域,并由其特定的研究问题与目标数据参考定义。未应用任何手动过滤规则,但结构化组织确保了在多样化算法与科学挑战上的全面覆盖。
- 使用方式与处理流水线: 作者将 ARC-Bench 用作评估框架而非训练语料。他们部署了三种独立的评估模式。实验阶段模式使用基于量表的裁判测试系统性能。端到端模式评估完整的研究流水线与最终论文质量,作者将其应用于 10 主题的人工介入循环消融实验与科学领域覆盖分析。科学模式对物理、生物与统计任务复用相同的量表。所有对比系统均使用相同的 LLM 骨干模型与沙盒环境进行处理,并分配统一的执行时间预算,以隔离架构本身的贡献。
- 评判与评估详情: 作者实施严格的评分协议,从代码开发、代码执行与结果分析三个维度对每个系统-主题配对进行评分,权重比例为 25:25:50。两名独立的 Agent 评审员并行评估提交内容。分差超过 0.20 将触发重新裁决步骤,随后才计算最终平均分。流水线高度重视结果分析维度以捕捉科学推理质量,受控的执行环境确保了所有基线系统处理的一致性对比。
方法
作者利用一个分为探索、实验与撰写三个主要阶段的 23 阶段流水线来构建 AUTOResearchClaw 系统,并包含贯穿所有阶段的五大核心机制。框架始于第一阶段:探索,涵盖研究范围界定与多 Agent 假设生成。该阶段过渡至第二阶段:实验,在此阶段代码在自我修复执行模型下生成并运行,系统自主决定继续、优化或转向。最后,第三阶段:撰写涉及草稿生成、多 Agent 评审、修订与引用验证。每个阶段均遵循正式的输入/输出契约,并支持基于检查点的恢复,从而实现跨运行的稳健恢复与流程连续性。
如图所示,该流水线划分为不同的阶段,每个阶段配备专用模块。A 阶段(研究范围界定)通过主题初始化、领域检测与问题分解启动流程。B 阶段(文献发现)涉及多源搜索、论文收集与筛选,由 Semantic Scholar API 与 arXiv API 提供支持。C 阶段(知识综合与假设辩论)通过包含创新者、实用主义者与反对者的多 Agent 辩论将发现综合为假设,由综合器将其输出整合为可证伪的假设。
D 阶段(实验设计)生成代码并执行对齐检查与资源规划,而 E 阶段(自我修复执行)管理沙盒 Docker 运行、故障诊断与迭代修复。该阶段包含可变测试框架与预算守卫,并具备最多十次优化实验的机制。F 阶段(分析与决策)执行统计测试,并在由乐观主义者、怀疑论者与方法论者引导的第二次多 Agent 辩论下,做出继续、优化或转向的决策。G 阶段(论文撰写)生成大纲、草稿并修订论文,由验证过的表格、长度守卫与防伪造检查提供支持。H 阶段(定稿与验证)执行质量关卡,通过 CrossRef、OpenAlex、arXiv 与 Semantic Scholar 进行引用验证,并导出最终论文。
该系统集成了持久化经验存储库,支持跨运行演化。每次运行结束时,系统从修复尝试、PIVOT/REFINE 决策、HITL 反馈与验证结果中提取结构化经验。这些经验以严重程度评分 s(l)∈(0,1] 与推荐缓解策略的形式存储。当新运行开始时,相关经验按类别检索,并使用时间衰减权重公式进行排序:
w(l)=s(l)⋅exp(−ln2⋅T1/2Δt),其中 Δt 为记录经验以来的经过时间,T1/2 为半衰期超参数,默认设置为 30 天。经验以自然语言叠加层的形式注入提示词,无需模型重新训练,且适用于任何 LLM 骨干。
实验
评估采用实验阶段基准、针对七种人工介入循环的端到端评估、组件消融实验与详细案例研究,以验证系统的架构机制与协作策略。基准测试与消融实验表明,多 Agent 辩论与结果验证显著提升了分析严谨性与科学完整性,而自我修复执行确保了流水线的稳健完成。端到端评估与案例研究揭示,在关键决策节点进行针对性人工干预始终优于完全自主与全面监督,确立了精准的人机协同为最优运行范式。最终,该框架被证明为可靠的研究放大器,在保持可验证性的同时加速科学探索,并依赖专家判断。
作者在 ARC-Bench 上将 AUTOResearchClaw 与现有系统进行对比,显示其在所有维度上均优于基线,尤其在结果分析与整体质量方面。结果凸显系统的设计(包括多 Agent 辩论与自我修复执行)驱动了其卓越性能,即便在无人工干预的情况下亦然。在关键决策节点提供针对性的人工介入循环指导,进一步提升了论文质量与录用率,效果优于完全自动化与全面监督。AUTOResearchClaw 在所有评估维度上均取得高于所有基线的性能,其中结果分析的提升最为显著。系统在完全自动模式下仍优于基线,表明其改进源于内部机制而非人工输入。在关键节点进行针对性人工干预,相较于完全自动化与逐步监督,显著提升了论文质量与录用率。
作者在多种干预机制下对 AUTOResearchClaw 进行端到端评估,考察论文质量与完成率。结果表明,在关键决策节点进行针对性人工干预,相较于完全自动化与详尽的逐步监督,显著改善了结果,其中 CoPilot 模式取得了最高的录用率与质量得分。CoPilot 在所有评估模式中录用率与平均质量得分最高。增加干预次数并不能提升质量;在关键节点进行针对性人工引导的效果优于完全自动化与全面监督。仅设关卡模式提供了高性价比的平衡,以最小干预提升录用率。
{"summary": "作者通过多项研究评估 AUTOResearchClaw,包括实验阶段对比、端到端人工介入循环消融与组件消融。结果表明,AUTOResearchClaw 在所有维度上均优于现有系统,其中结果分析方面的提升最为显著,多 Agent 辩论与可验证报告大幅改善了结论质量。与完全自动化和全面监督相比,该框架在针对性人工干预下实现了更高的论文质量与录用率。", "highlights": ["在实验阶段评估中,AUTOResearchClaw 在所有基线中表现最佳,尤其在结果分析方面,这得益于多 Agent 辩论与可验证结果报告。", "在关键决策节点进行针对性人工干预实现了最高的论文质量与录用率,超越了完全自动化与逐步监督。", "组件消融表明,辩论、自我修复与验证是互补机制,同时移除多个组件会导致性能出现超加性下降。"]
作者通过多项实验(包括实验阶段对比、端到端人工介入循环消融与组件消融)将 AUTOResearchClaw 与现有系统进行对比。结果表明,AUTOResearchClaw 在关键维度上均优于所有基线,尤其在结果分析与整体论文质量方面,且在针对性人工干预下获得最高录用率。系统的有效性归功于多 Agent 辩论、自我修复执行与验证等互补机制,这些机制共同促成了更高质量、更可靠的研究输出。与所有基线相比,AUTOResearchClaw 在结果分析与整体论文质量上表现最佳,尤其在针对性人工干预下。系统的成功由多 Agent 辩论、自我修复执行与验证等机制组合驱动,这些机制对质量与完成率均至关重要。在关键决策节点进行针对性人工干预显著提升了论文质量与录用率,优于完全自动化与详尽的逐步监督。
作者开展组件消融实验以隔离 AUTOResearchClaw 中不同机制的贡献,评估其对完成率、质量、可接受性与结果伪造的影响。结果表明,辩论与自我修复对高质量与完整输出至关重要,而验证可防止结果伪造,但在应用严格标准时会降低录用率。各机制以超加性方式交互,移除多个组件会导致性能显著下降。辩论与自我修复对实现高完成率与高质量必不可少,移除二者会导致两项指标大幅下滑。验证可防止伪造但会降低录用率,表明完整性与输出有效性之间存在权衡。同时移除辩论与自我修复会导致完成率与质量完全失败,凸显了其互补与超加性效应。
作者通过 ARC-Bench 上的多阶段实验框架评估 AUTOResearchClaw,考察端到端性能、人工介入循环干预策略与单个组件的贡献。实验验证了该系统始终超越现有基线,尤其在结果分析与整体论文质量方面,这得益于多 Agent 辩论、自我修复执行与验证的协同效应。定性而言,研究结果表明在关键决策节点进行针对性人工引导优化了论文质量与录用率,优于完全自动化与全面监督。此外,组件分析揭示这些内部机制以超加性方式运行,辩论与自我修复驱动完成率与分析深度,而验证确保完整性,尽管严格的验证标准可能与录用率产生权衡。