Command Palette
Search for a command to run...
AutoResearchBench: 在复杂科学文献发现中评估AI代理的基准测试
AutoResearchBench: 在复杂科学文献发现中评估AI代理的基准测试
摘要
得益于 AI agents 的发展,自主科学研究取得了显著进展。这一过程中的关键一步是找到合适的科学文献,无论是为了探索研究问题现有的知识,还是为了获取验证假设和支持论点的证据。为了评估 AI agents 在推动这一过程中的能力,我们推出了 AutoResearchBench,这是一个专门用于自主科学文献发现的基准测试。AutoResearchBench 包含两种互补的任务类型:(1) 深度研究,要求通过渐进式、多步骤的探测过程追踪特定目标论文;(2) 广度研究,要求全面收集满足给定条件的一组论文。与之前关于 agentic 网络浏览的基准测试相比,AutoResearchBench 在三个维度上具有独特性:它以研究为导向,要求深入理解科学概念;以文献为中心,要求对详细信息进行细致利用;且开放-ended,涉及未知数量的合格论文,因此需要贯穿始终的仔细推理和搜索。这些特性使得 AutoResearchBench 非常适合评估自主研究能力,同时也极具挑战性。即使是最强大语言模型(LLMs),尽管在 BrowseComp 等通用 agentic 网络浏览基准测试中取得了较大突破,但在深度研究中仅达到 9.39% 的准确率,在广度研究中达到 9.31% 的 IoU,而许多其他强基线则低于 5%。我们公开发布了数据集和评估流程,以促进未来在这一方向的研究。我们在 https://github.com/CherYou/AutoResearchBench 公开了数据集、评估流程和代码。
一句话总结
AutoResearchBench 通过深度研究(Deep Research)和广度研究(Wide Research)任务评估 AI agent 在自主科学文献发现方面的能力。这些任务要求具备深入的概念理解、细粒度的全文分析以及刻意的开放式推理能力。评估结果暴露出当前最先进的大语言模型(LLM)存在严重的性能局限,其准确率仅为 9.39%,IoU 仅为 9.31%,远低于其在通用网页浏览基准测试中的表现。
核心贡献
- 提出 AutoResearchBench 作为评估自主科学文献发现的大规模基准测试,包含深度研究与广度研究任务。这些任务要求在超过三百万篇 arXiv 论文的受控语料库中,进行渐进式多步探查与全面的集合收集。
- 在该语料库上构建了一个受控评估环境,配备最新的全文提取与搜索工具。该环境要求 agent 处理面向研究、聚焦文献且开放的查询,并需对详细的学术内容进行细粒度利用。
- 实验结果表明,前沿语言模型在深度研究任务上的准确率仅为 9.39%,在广度研究任务上的 IoU 仅为 9.31%。这暴露出其在科学推理、长复合查询处理及迭代反思方面存在持续性局限,从而将文献发现定位为超越通用网页浏览的独立能力前沿。
引言
大语言模型驱动的人工智能科学家的出现,使自主研究成为一项切实可行的目标。科学文献发现作为验证假设、确定合适方法以及映射现有知识的基础能力,在此过程中扮演着关键角色。然而,先前的评估框架主要侧重于通用网页导航,无法评估在浏览同行评审语料库时所需的技术深度、开放式约束满足能力以及穷尽式推理。现有的学术基准测试仍受限于规模较小、环境不受控或缺乏动态 agent 测试。为弥补这一差距,作者提出了 AutoResearchBench,这是一个包含一千个精心策划问题的大规模基准测试,用于评估目标论文识别与综合文献收集能力。该基准测试建立在超过三百万篇 arXiv 论文的受控环境之上,结果表明当前前沿模型在多层科学推理方面面临显著困难,凸显了自主研究 agent 在独立能力前沿上的表现。
数据集
- 数据集构成与来源: 作者引入了 AutoResearchBench,该基准测试构建于受控的 DeepXiv 语料库之上,包含超过三百万篇开放获取的 arXiv 论文,并提供结构化元数据与全文访问权限。数据集包含一千个由专家策划的查询,涵盖八个核心计算机科学领域。
- 子集详情: 该基准测试分为两个互补的任务家族。学术深度研究包含 600 个查询,侧重于精确的论文识别,其中 90% 针对单一有效论文,10% 为故意不可满足的查询,用于测试 agent 识别不可行约束的能力。学术广度研究包含 400 个查询,侧重于全面覆盖,每个查询平均产生 9.23 个有效答案,呈现长尾分布,候选数量从不足十个到超过二十个不等。
- 模型使用与数据处理: 作者仅将该数据集用作评估基准,而非训练资源。未定义任何训练集划分或混合比例。相反,他们在受控的 DeepXiv 搜索环境中部署前沿大语言模型与自主 agent,以测量长周期浏览、多层推理及约束满足能力。
- 处理与构建流程: 作者采用“全文优先”的人机协作流程,以确保高难度与事实准确性。关键处理步骤包括目标筛选,优先选择引用量在 10 到 100 之间且具备实质技术内容的论文,同时排除综述文章。全文约束挖掘提取细微的方法细节、证明步骤与引用关系,并刻意避开标题关键词。约束模糊化与迭代剪枝对局部证据进行改写,仅保留能唯一隔离目标的最小充分线索。广度研究经过候选扩展、摘要筛选、自动 ArXiv ID 规范化以及按月级的时间校准。最后,多阶段对抗性验证流程应用多查询捷径筛选、带 10 分钟预算的人工检索以及语料库级唯一性审计,以剔除琐碎或模糊的实例。
方法
AutoResearchBench 的框架围绕一个系统化流程构建,旨在评估 agent 通过搜索、浏览与推理科学文献来自主开展学术研究的能力。整体流程始于任务创建,agent 在由初始查询 q 和语料库 D 定义的搜索环境中运行。在每一步 t,agent 的状态 st 包含查询、交互历史 ht 以及迄今为止观察到的文档子集 Dt。agent 迭代地进行推理与工具使用(通过 DeepXiv 等搜索工具或网页搜索),或通过提供预测答案集 Y^(q) 终止运行,该预测集旨在逼近满足查询所有隐式约束的真实文档集 Y∗(q)。与传统问答任务不同,此场景下的决定性证据通常存在于附录、图表说明或引用语境等非传统章节中。
该方法的核心涉及一个四阶段构建流程,用于生成高质量的研究任务,其基础在于学术实体图。第一阶段为特定领域候选源检索,识别核心计算机科学领域的高层研究主题,并使用外部搜索工具检索初步候选池。随后,大语言模型(LLM)对这些候选进行过滤与总结,以确保主题连贯性与代表性。在第二阶段结构抽象与查询构建中,从候选论文中提取共享的多维属性(如方法、数据集与结果),以构建实体图。该图随后被转化为初始查询,编码这些共享约束的严格合取。第三阶段为查询优化与初步验证,将查询重写为自然科学语言,同时保留其逻辑结构。人工标注员验证查询与候选集之间的对齐情况,手动补充缺失的有效论文,以建立对 Y∗(q) 的可靠初始近似。
第四阶段也是最后阶段为迭代扩展与严格审计,旨在实现近乎完整的覆盖。候选集通过搜索工具进行迭代扩展,新检索到的文档经过全文分析。采用涉及三个独立前沿大语言模型(Gemini-3.1-pro、Claude 4.6-Sonnet 与 GPT-5.4)的多数投票机制,评估每篇文档是否符合查询约束。这些模型被指示采取保守策略,除非文本中明确证明,否则将标记为不满足条件。最终裁决基于二元满足判断的多数投票得出。为确保鲁棒性,领域专家对通过多模型筛选的 50% 论文进行随机审计。若任何查询的人工验证合规率低于 75% 的精度阈值,该查询的整个候选池将重新进入多模型投票与人工抽查循环。此迭代优化过程将持续至达到阈值,有效缓解模型幻觉并确保高语义一致性。
评估框架在单工具 ReAct 循环内运行,模型在自由形式推理、从最新搜索结果中选择论文 ID,以及执行结构化搜索调用或发出明确终止信号之间交替。系统提示词区分广度研究与深度研究,在必要时鼓励多层分解,并强制执行固定输出顺序:thinking、,随后为 Done。每个基准测试实例异步处理,支持多条独立轨迹以计算 pass@k 指标。输入与输出采用面向行的 JSON 记录格式,允许通过追加缺失问题来恢复部分运行。当模型发出结束标记、超出软性上下文预算、达到回合上限或聊天 API 失败时,运行终止。
agent-工具接口暴露了一个搜索工具,其模式接受必需的查询字符串与可选的 top_k 参数。执行器将请求分发至配置的后端,将结果重新格式化为共享 JSON 结构,并将其注入下一个用户消息中,包裹在 <tool_response> 标签内供下一轮使用。针对论文搜索,系统发起包含自然语言查询与 k 的 POST 请求,返回带有元数据与分节全文的排名结果。每条结果并行进行后处理:作者名单超过十个名称的将截断为前五个与后五个名称,并从存储正文的开头提取基于查询条件的摘要片段。辅助大语言模型将该片段压缩为聚焦查询的“证据”字符串,作为论文的 search_evidence 展示。失败或超时将导致该次调用返回空结果列表。针对网页搜索,查询会添加前缀以偏向 arXiv 结果,并提供两种可互换的连接器(程序化网页搜索或替代的搜索+阅读器栈)。默认路径使用同时返回摘要与部分页面文本且无需对每个 URL 进行二次获取的连接器。每条结果在应用相同的基于查询条件的摘要模板前,会被限制在一个较大的字符窗口内。展示给 agent 的 arXiv 标识符在存在时从结果 URL 启发式推导得出。
系统提示词指导 agent 遵循严格的 ReAct 工作流。在推理阶段,agent 首先识别用户意图,判断任务属于广度搜索(多个严格匹配)还是深度搜索(最多一篇正确论文)。随后,必要时将查询分解为子问题,并评估最新工具响应中的候选论文列表。在执行阶段,agent 使用精心构造的查询调用搜索工具,或发出结束信号。工具调用必须遵循特定格式,函数名与参数需提供在 <tool_call> 标签内的 JSON 对象中。agent 必须按固定顺序输出:thinking、候选选择,随后为工具调用或结束信号。这种结构化方法确保 agent 的言行基于证据,并与任务要求保持一致。
实验
评估采用标准化的基于 ReAct 的 agent 框架,并与专用学术搜索工具交互,以验证模型在两种截然不同的文献检索范式(精确目标隔离与综合集合补全)上的能力。主要实验表明,当前 agent 在科学搜索方面面临显著困难,因为过度推理与增加交互预算往往会退化为冗余探索,而非提升准确率。补充分析进一步证明,专用学术索引优于开放网页工具,显式推理步骤通常仅增加延迟而无实质收益,测试时扩展主要解决决策不稳定性而非召回率缺口。最终,研究结果表明,在推进 agent 学术发现方面,有效的证据利用与严格的约束过滤远比搜索量或原始推理步骤更为关键。
作者使用标准化 agent 框架与精心策划的 arXiv 语料库,分析了各模型在深度与广度研究任务上的表现。结果显示,表现最佳的模型准确率与 IoU 分数较低,表明在精确文档检索与综合集合补全方面存在显著挑战。评估强调,增加交互次数并不能改善结果,有效推理比搜索预算更为关键,失败往往源于验证约束与管理假设空间的困难。表现最佳的模型准确率与 IoU 分数较低,表明在精确文档检索与综合集合补全方面存在显著挑战。增加交互次数并不能改善结果,有效推理比搜索预算更为关键。失败往往源于验证约束与管理假设空间的困难,agent 难以剔除边界案例并整合碎片化证据。
作者使用标准化 agent 框架与精心策划的 arXiv 语料库,评估了模型在两种截然不同的科学搜索范式(深度搜索与广度搜索)上的表现。结果显示,两种范式均带来显著挑战,模型表现出较低的准确率与 IoU 分数、较高的计算成本,以及在推理与证据收集方面的低效性。评估强调,性能瓶颈在于验证复杂约束、管理假设空间以及避免冗余或逻辑混乱的搜索行为的能力,而非交互次数或推理步骤的数量。模型在深度搜索与广度搜索任务上的表现均较低,最佳结果的准确率与 IoU 远低于 10%。增加交互回合与推理步骤无法改善结果,反而常导致冗余或逻辑混乱的搜索行为。广度搜索需要对假设空间进行系统管理并严格遵守约束,而深度搜索则要求对复杂的多层证据链进行精确验证。
作者使用两种不同的任务范式(深度研究与广度研究)评估 agent 科学文献搜索能力,并为每种范式定制了评估指标。结果显示,当前模型在这两项任务上的表现均不佳,顶尖系统的准确率或 IoU 均低于 10%,表明在处理复杂约束与确保全面检索方面存在显著挑战。研究发现,增加推理或搜索预算并不能持续改善结果,有效利用证据比轨迹长度更为关键。表现最佳的模型在深度研究中的准确率与广度研究中的 IoU 均低于 10%,表明解决科学搜索任务存在巨大困难。增加交互回合与推理并不能可靠地提升性能,因为更长的轨迹往往导致冗余或逻辑混乱的推理,且未带来更好结果。主要瓶颈涉及精确约束验证与综合证据整合,agent 难以有效剔除边界案例并管理假设空间。
作者使用标准化 agent 框架与 DeepXiv 搜索工具,评估了若干大语言模型在学术文献搜索任务上的表现。结果显示,各模型在深度搜索与广度搜索上的性能均保持低位,顶尖模型的准确率与 IoU 均低于 6%。该表格指出,模型在 THINK 与 NOTHINK 模式下的表现存在显著差异,部分模型在一种模式下表现更佳,另一些则在另一种模式下表现更好,且性能差异并未与计算成本或推理深度保持一致的关联。顶尖模型准确率与 IoU 分数较低,表明学术文献搜索面临显著挑战。THINK 与 NOTHINK 模式间的表现存在波动,各模型均未在任一方法上展现稳定优势。计算成本(时间、回合、调用次数)与性能之间无明显关联,部分低资源消耗模型的表现优于高资源消耗模型。
作者分析了测试时扩展对 agent 科学搜索性能的影响,深度搜索采用 pass@k 指标,广度搜索采用 best@k IoU 指标。结果显示,增加搜索预算可提升两项任务的性能,但深度搜索的增益更为显著,表明其失败主要源于不稳定的决策路径。相比之下,广度搜索的改善幅度较小,提示存在召回瓶颈,重复运行往往复现相似的遗漏而非发现新证据。趋势线表明,表现最佳的模型在更大预算下取得更高分数,深度搜索的改善曲线相较于广度搜索更为陡峭。测试时扩展提升了深度与广度搜索的性能,其中深度搜索的增益更为明显。深度搜索的改善表明,失败通常源于不稳定的决策路径而非证据缺失。广度搜索在预算增加时改善较小,表明存在召回瓶颈,重复运行未能发现互补证据。
作者使用标准化 agent 框架与精心策划的 arXiv 语料库,在深度与广度科学搜索任务上评估了多种语言模型,以检验检索精度与证据完整性。基线评估证实,模型在约束验证与假设管理方面面临困难,因为过度推理与增加交互回合很少能改善结果,且常生成冗余行为。扩展与推理模式实验进一步证实,计算预算与显式思考策略提供的优势并不一致,成功与否高度依赖于特定任务的瓶颈。最终,研究得出结论:稳定的决策路径与系统化的证据整合是驱动性能的关键,而深度搜索受困于不稳定的轨迹,广度搜索则受限于持续的召回瓶颈。