9 小时前

Qianqian Xie Qingheng Xiong He Zhu Tiantian Xia Xueming Han Fanyu Meng Jiakai Wang Zhiqi Bai Chengkang Jiang Zhaohui Wang

摘要

Deep Research Agents (DRAs) 旨在解决涉及规划、检索、多模态理解和报告生成的复杂、长程（long-horizon）研究任务，然而，由于动态的网络环境和模糊的任务定义，对其进行评估仍然具有挑战性。我们提出了 DR $^{3}$ -Eval，这是一个用于评估 Deep Research Agents 在多模态、多文件报告生成能力上的真实且可复现的 benchmark。DR $^{3}$ -Eval 基于用户提供的真实材料构建，并配有针对每个任务的静态研究沙盒语料库（sandbox corpus）；该语料库在模拟开放网络复杂性的同时保持了完全的可验证性，其中包含了辅助文档、干扰项以及噪声。此外，我们引入了一个多维度的评估框架，用于衡量信息召回率（Information Recall）、事实准确性（Factual Accuracy）、引用覆盖率（Citation Coverage）、指令遵循能力（Instruction Following）以及深度质量（Depth Quality），并验证了该框架与人类判断的一致性。基于多种最先进（state-of-the-art）语言模型构建的多 Agent 系统 DR $^{3}$ -Agent 的实验表明，DR $^{3}$ -Eval 具有极高的挑战性，并揭示了在检索鲁棒性和 hallucination 控制方面的关键失效模式。我们的代码和数据已公开。

一句话总结

作者提出了 DR3-Eval，这是一个真实且可复现的基准测试，用于评估深度研究 agent 在多模态、多文件报告生成任务上的表现。该基准利用静态研究沙盒语料库来模拟开放网络的复杂性，并采用多维评估框架来评估信息召回率、事实准确性、引用覆盖率、指令遵循能力以及深度质量。

核心贡献

本文引入了 DR $^{3}$ -Eval，这是一个旨在评估深度研究 agent 在多模态、多文件报告生成任务上表现的真实且可复现的基准。
这项工作提出了一个由真实用户材料构建的研究沙盒语料库，通过使用辅助文档、干扰项和噪声，模拟了开放网络的复杂性。
作者开发了一个多维评估框架，用于衡量信息召回率（Information Recall）、事实准确性（Factual Accuracy）、引用覆盖率（Citation Coverage）、指令遵循（Instruction Following）和深度质量（Depth Quality），并验证了该框架与人类判断的一致性。

引言

深度研究 Agent (DRAs) 旨在实现复杂、长程任务的自动化，例如规划、多模态信息检索以及结构化报告的合成。虽然这些 agent 的能力日益增强，但评估它们却非常困难，因为实时网络环境具有时间波动性且难以复现。现有的基准测试往往难以应对这一矛盾，要么依赖于不可预测的实时网络访问，要么使用简化的纯文本沙盒，缺乏现实研究中常见的多模态复杂性和噪声、误导性信息。

作者利用名为 DR3-Eval 的新基准来弥补这一差距。他们引入了一个受控的静态研究沙盒，使用精心挑选的文档、干扰项和噪声来模拟开放网络的复杂性，以确保结果既真实又完全可验证。为了提供严谨的评估，作者实现了一个多维评估框架，衡量信息召回率、事实准确性和引用覆盖率等指标，确保 agent 的性能在证据获取和分析深度两个维度上都得到评判。

数据集

作者开发了 DR3-Eval，这是一个通过五个阶段构建过程设计的高纯度基准，用于评估深度研究能力。

数据集构成与来源
- 数据集包含 100 个独立任务，在英文和中文样本之间均匀分配。
- 内容基于现实需求，使用由学术志愿者提供的多模态材料集（文本、结构化数据、静态视觉内容和动态媒体）。
- 主题涵盖三大主要领域：技术、经济和人文，包括计算机科学、医疗保健和金融等 13 个特定子领域。
- 输入模态包括文档 (45.98%)、图像 (27.68%) 和视频 (13.84%)，其中 68% 的任务是多模态的。
沙盒语料库与网页子集 为了模拟现实世界的研究环境，作者采用发散-收敛关键词生成策略为每个任务构建了静态沙盒语料库。网页被分为三种不同类型：
- 辅助网页 (Supportive Web Pages)： 来自信号关键词的高相关性结果，提供充分且必要的证据。
- 干扰网页 (Distractor Web Pages)： 来自信号关键词但已过时、片面或不准确的结果，用于测试从误导性信息中区分有用证据的能力。
- 噪声网页 (Noise Web Pages)： 来自噪声关键词的结果，用于调整信噪比。
处理与难度缩放
- 脱敏： 所有材料都经过自动化 PII（个人身份信息）脱敏脚本处理，随后进行人工交叉验证，以确保完全匿名化。
- 清洗： 使用统一的流水线爬取网页结果，移除失效页面，并剥离广告和导航栏等模板元素。
- 上下文缩放： 为了模拟信息质量的长尾效应，作者实施了精细的难度缩放策略，设有五个上下文长度：32k, 64k, 128k, 256k 和 512k tokens。
- 混合策略： 所有设置都包含全套辅助网页。随着目标上下文长度的增加，干扰页面的数量按比例增加，剩余配额由噪声网页填充。
质量控制与查询构建
- 作者使用基于证据的反向构建方法，即根据预定文档合成查询，以确保答案是可验证的并且需要综合推理。
- 应用“QC 漏斗”将最初的 280 个候选任务筛选至最终的 100 个。如果任务缺乏综合必要性、可以通过公开搜索轻松获取捷径或包含歧义解释，则会被丢弃。

方法

作者利用 MiroFlow 框架构建了 DR³-Agent，这是一个由大语言模型 (LLM) 驱动的系统，旨在解决 DR³-Eval 提出的深度研究挑战，特别是涉及用户提供文件和离线沙盒语料库的任务。系统的架构围绕一个核心推理枢纽——主 agent 构建，该 agent 通过动态的“计划-行动-观察”循环来编排信息获取和报告生成。该主 agent 维护全局任务上下文，并协调专门的 sub-agents 来处理特定的信息获取任务，从而减轻主要推理组件的负担。如下图所示，系统同时处理用户提供的文件和沙盒语料库（这是一个针对每个案例构建的检索知识库）。主 agent 配备了感知工具，使其能够直接处理音频和视频等多模态用户文件，从而能够在全局上下文中合成内容，而不是将其视为孤立的提取任务。这种设计对于系统从多样化来源合成信息的能力至关重要。

在信息获取层面，系统采用了两个专门的 sub-agents（均由相同的底层 LLM 提供支持）来执行特定任务。RAG 搜索 sub-agent 负责与静态沙盒语料库进行交互。它在受控环境中，使用基于 text-embedding-3-small 模型的迭代密集检索机制取代了传统的开放网络搜索。该 agent 使用 ReAct 范式进行自主、多步骤的检索，并进行迭代查询优化。这一过程允许 agent 评估不完整或冲突的证据，并在迭代中修正搜索方向，使得搜索在功能上类似于在超链接图上的启发式探索。文件阅读 sub-agent 专门用于解析长文本用户文件，利用工具执行精细的关键词查询并按页码检索内容。两个 sub-agents 独立运行，不共享全局状态，且仅向主 agent 返回高度浓缩的摘要。

Information Acquisition and Report Generation Flow

报告生成过程始于主 agent，它根据查询和文件生成一份详尽的报告。随后，该报告通过一系列指标进行评估以衡量其质量。评估框架包括：信息召回率 (IR)，衡量从用户文件和沙盒语料库中提取特定见解的覆盖范围；引用覆盖率 (CC)，评估模型检索和引用查询所需文档的能力；事实准确性 (FA)，通过模型验证文本陈述，并使用 Gemini-2.5-Pro 验证基于视频或音频内容的陈述，从而评估报告内主张的真实性；指令遵循 (IF)，确保报告满足任务查询衍生的所有要求；以及深度质量 (DQ)，使用模型作为专家评委来评估报告的分析实质和逻辑严密性。这一全面的评估框架确保了生成的报告在准确性、完整性和分析深度方面均达到高标准。

实验

DR $^{3}$ -Eval 框架通过结合自动化指标和基于 LLM 的评委，评估信息寻求质量和报告生成，从而对长程研究任务进行评估。实验表明，虽然模型性能随规模增长，但增加上下文长度会引入噪声并降低证据检索效果，且高指令遵循能力并不能本质上保证事实准确性。最终结果表明，当前模型的主要瓶颈在于报告生成过程中维持对外部证据的落地（grounding），而非简单的信息获取。

该表比较了五个案例在多个指标上的 LLM 生成评分与人类评估评分。结果显示，LLM 与人类评委在大多数维度上表现出一致的性能，但在单个指标的分数上存在细微差异。LLM 和人类评委在所有案例的评分上表现出强一致性。信息召回率和引用覆盖率指标在 LLM 和人类评估之间表现出最一致的对齐。某些指标如事实准确性和指令遵循在 LLM 和人类评分之间显示出较小的差异。

该表比较了三种模型下不同检索方法的性能，结果显示 OpenAI-Emb 获得了最高分，其次是 Qwen-Emb，而 BM25 表现最低。结果表明，embedding 方法的选择显著影响检索效果。OpenAI-Emb 在所有模型中均优于 Qwen-Emb 和 BM25。BM25 在三种检索方法中表现最差。基于 embedding 的方法显著优于传统的基于词汇的方法。

该表展示了改变 RAG 迭代轮数对模型性能的影响，包含信息召回率 (IR) 和引用覆盖率 (CC) 指标。性能通常随着迭代轮数的增加而提高，但某些模型在达到峰值后会出现下降，表明存在收益递减现象。增加 RAG 迭代轮数通常在一定范围内能提升性能，对于某些模型，性能在较高迭代次数下会达到峰值后下降。与信息召回率相比，引用覆盖率随着轮数增加表现出更明显的提升。

{"caption": "Model performance across domains", "summary": "作者在不同领域评估了多个语言模型，显示出性能存在显著差异。结果表明模型排名因领域而异，某些模型在特定领域表现出色，而其他模型在大多数领域表现稳定。", "highlights": ["不同领域的性能差异显著，顶尖模型展现出强大的领域特定优势。", "模型在大多数领域表现出一致的排名，表明其相对性能稳定。", "评估显示没有单一模型能统治所有领域，突显了领域特定适配的重要性。"]}

[[IMG:http://api-rsrc.hyper.ai/2604.14683/cc435f47-f1bc-4ddf-aef7-25ee4bf050ae/tex_resource/extracted_tables/table-4.png|]]

该表展示了三个评委模型对不同模型的排名，各评委之间的排名具有高度一致性。顶尖模型的排序争议极小，表明评估结果稳健且稳定。不同评委模型之间的排名高度一致，争议极小。Claude Sonnet 4 在所有三个评委模型中均获得最高排名。GPT-5、Gemini-2.5-Pro 和 Qwen-Max 产生的模型排名几乎完全相同。

这些实验评估了基于 LLM 评分的可靠性、各种检索方法的有效性，以及 RAG 迭代轮数对不同领域模型性能的影响。结果表明，LLM 评委与人类评估紧密对齐，并在不同评委模型之间保持一致的排名。此外，基于 embedding 的检索方法显著优于基于词汇的方法，虽然增加 RAG 迭代通常能提升性能，但模型最终会遇到收益递减的情况。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

9 小时前

Qianqian Xie Qingheng Xiong He Zhu Tiantian Xia Xueming Han Fanyu Meng Jiakai Wang Zhiqi Bai Chengkang Jiang Zhaohui Wang

摘要

一句话总结

核心贡献

本文引入了 DR $^{3}$ -Eval，这是一个旨在评估深度研究 agent 在多模态、多文件报告生成任务上表现的真实且可复现的基准。
这项工作提出了一个由真实用户材料构建的研究沙盒语料库，通过使用辅助文档、干扰项和噪声，模拟了开放网络的复杂性。
作者开发了一个多维评估框架，用于衡量信息召回率（Information Recall）、事实准确性（Factual Accuracy）、引用覆盖率（Citation Coverage）、指令遵循（Instruction Following）和深度质量（Depth Quality），并验证了该框架与人类判断的一致性。

引言

数据集

作者开发了 DR3-Eval，这是一个通过五个阶段构建过程设计的高纯度基准，用于评估深度研究能力。

数据集构成与来源
- 数据集包含 100 个独立任务，在英文和中文样本之间均匀分配。
- 内容基于现实需求，使用由学术志愿者提供的多模态材料集（文本、结构化数据、静态视觉内容和动态媒体）。
- 主题涵盖三大主要领域：技术、经济和人文，包括计算机科学、医疗保健和金融等 13 个特定子领域。
- 输入模态包括文档 (45.98%)、图像 (27.68%) 和视频 (13.84%)，其中 68% 的任务是多模态的。
沙盒语料库与网页子集 为了模拟现实世界的研究环境，作者采用发散-收敛关键词生成策略为每个任务构建了静态沙盒语料库。网页被分为三种不同类型：
- 辅助网页 (Supportive Web Pages)： 来自信号关键词的高相关性结果，提供充分且必要的证据。
- 干扰网页 (Distractor Web Pages)： 来自信号关键词但已过时、片面或不准确的结果，用于测试从误导性信息中区分有用证据的能力。
- 噪声网页 (Noise Web Pages)： 来自噪声关键词的结果，用于调整信噪比。
处理与难度缩放
- 脱敏： 所有材料都经过自动化 PII（个人身份信息）脱敏脚本处理，随后进行人工交叉验证，以确保完全匿名化。
- 清洗： 使用统一的流水线爬取网页结果，移除失效页面，并剥离广告和导航栏等模板元素。
- 上下文缩放： 为了模拟信息质量的长尾效应，作者实施了精细的难度缩放策略，设有五个上下文长度：32k, 64k, 128k, 256k 和 512k tokens。
- 混合策略： 所有设置都包含全套辅助网页。随着目标上下文长度的增加，干扰页面的数量按比例增加，剩余配额由噪声网页填充。
质量控制与查询构建
- 作者使用基于证据的反向构建方法，即根据预定文档合成查询，以确保答案是可验证的并且需要综合推理。
- 应用“QC 漏斗”将最初的 280 个候选任务筛选至最终的 100 个。如果任务缺乏综合必要性、可以通过公开搜索轻松获取捷径或包含歧义解释，则会被丢弃。

方法

实验

[[IMG:http://api-rsrc.hyper.ai/2604.14683/cc435f47-f1bc-4ddf-aef7-25ee4bf050ae/tex_resource/extracted_tables/table-4.png|]]

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

DR3^{3}3-Eval：迈向真实且可复现的深度研究评估

Qianqian Xie Qingheng Xiong He Zhu Tiantian Xia Xueming Han Fanyu Meng Jiakai Wang Zhiqi Bai Chengkang Jiang Zhaohui Wang9 more

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

DR3^{3}3-Eval：迈向真实且可复现的深度研究评估

Qianqian Xie Qingheng Xiong He Zhu Tiantian Xia Xueming Han Fanyu Meng Jiakai Wang Zhiqi Bai Chengkang Jiang Zhaohui Wang9 more

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

DR3^{3}3-Eval：迈向真实且可复现的深度研究评估

Qianqian Xie Qingheng Xiong He Zhu Tiantian Xia Xueming Han Fanyu Meng Jiakai Wang Zhiqi Bai Chengkang Jiang Zhaohui Wang9 more

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

DR $^{3}$ -Eval：迈向真实且可复现的深度研究评估

Qianqian Xie Qingheng Xiong He Zhu Tiantian Xia Xueming Han Fanyu Meng Jiakai Wang Zhiqi Bai Chengkang Jiang Zhaohui Wang

DR $^{3}$ -Eval：迈向真实且可复现的深度研究评估

Qianqian Xie Qingheng Xiong He Zhu Tiantian Xia Xueming Han Fanyu Meng Jiakai Wang Zhiqi Bai Chengkang Jiang Zhaohui Wang

DR $^{3}$ -Eval：迈向真实且可复现的深度研究评估

Qianqian Xie Qingheng Xiong He Zhu Tiantian Xia Xueming Han Fanyu Meng Jiakai Wang Zhiqi Bai Chengkang Jiang Zhaohui Wang