5 小时前

Łukasz Borchmann Jordy Van Landeghem Michał Turski Shreyansh Padarha Ryan Othniel Kearns Adam Mahdi Niels Rogge Clémentine Fourrier Siwei Han Huaxiu Yao

摘要

多模态智能体为自动化复杂且文档密集的工作流提供了一条充满前景的路径。然而，一个关键问题依然悬而未决：这些智能体究竟展现出真正的战略推理能力，还是仅仅依赖于随机试错搜索？为解答这一疑问，我们推出了 MADQA 基准测试。该基准包含 2,250 道由人工编写的问题，涵盖 800 份异构 PDF 文档。受经典测试理论（Classical Test Theory）指导，我们在设计时旨在最大化对不同层级智能体能力的区分度。为评估智能体行为，我们提出了一种新颖的评估协议，用于衡量准确率与努力程度之间的权衡。基于该框架，我们的研究表明：尽管表现最佳的智能体在原始准确率上可与人类搜索者相媲美，但它们成功解决的问题与人类截然不同，且主要依赖暴力搜索来弥补战略规划能力的不足。这些智能体未能缩小与“神谕”（oracle）性能之间近 20% 的差距，并持续陷入无效循环。我们已公开该数据集及评估工具包，旨在推动从暴力检索向经过校准的高效推理转变。

一句话总结

Snowflake 及其合作机构的研究人员推出了 MADQA，这是一个包含 800 个 PDF 文档中 2,250 个问题的基准测试，旨在揭示当前的多模态智能体依赖暴力搜索而非策略性推理，突显了高效文档密集型工作流自动化中的关键差距。

主要贡献

本文通过正式定义具有六个核心属性的“智能体文档集合视觉问答（Agentic Document Collection VQA）”，解决了多模态智能体究竟具备真正的策略性推理能力，还是依赖随机试错搜索的不确定性。
提出了 MADQA，这是一个基于经典测试理论设计的基准测试，包含 800 个异构 PDF 文档中的 2,250 个人工编写问题，旨在最大化对不同智能体能力的区分度。
一种新颖的评估协议通过衡量准确率与努力程度的权衡，揭示出顶级智能体虽然能达到人类的原始准确率，但由于依赖暴力搜索和无效循环，仍与理想性能（Oracle performance）存在 20% 的差距。

引言

多模态智能体正越来越多地被部署用于自动化复杂且文档密集的工作流，但目前尚不清楚它们是采用真正的策略性推理，还是依赖随机试错搜索。先前的基准测试往往聚焦于单份文档、使用半自动标注，或在网页而非异构 PDF 集合上评估智能体，未能捕捉现实世界任务所需的迭代规划能力。为填补这些空白，作者推出了 MADQA，这是一个经过严格验证的基准测试，包含 800 个多样化 PDF 文档中的 2,250 个人工编写问题，并配套了一种衡量准确率与努力程度权衡的新颖评估协议。他们的分析表明，虽然顶级智能体在准确率上能与人类媲美，但这是通过暴力搜索和无效循环实现的，而非经过校准的策略性规划，这突显了从以检索为主的方法转向高效推理的迫切需求。

数据集

MADQA 数据集概览

作者推出了多模态智能体文档问答（MADQA）基准测试，用于评估多模态大语言模型在企业环境中处理复杂、多阶段信息检索和推理任务的能力。

数据集构成与来源
- 语料库由 800 份人工精选的 PDF 文档组成，源自 DocumentCloud，涵盖 13 个高层领域和 63 个细粒度类别。
- 文档包含多样化的现实世界材料，如财务报告、法律文件、政府表格和技术手册，篇幅从单页摘要到 800 多页的文件不等。
- 该集合强调布局的异质性，包括财务文档中的高表格密度、技术报告中的大量图表以及法律记录中的高密度文本。
各子集的关键细节
- 总规模：数据集包含 2,250 个人工编写的问题 - 答案对，严格基于提供的文档。
- 推理类型：约 17.3% 的问题需要多跳推理，其中 8.3% 需要在单份文档内进行跨页综合，9.0% 需要跨文档聚合。
- 证据粒度：标注指定了页面级别的最低证据集，而非边界框，这与标准检索系统的操作相一致。
- 质量控制：通过涉及超过 1,200 小时专业工作的严格流程，确保了问题的可解性和无歧义性，并利用 GPT-5 进行自动检查，同时由领域专家进行人工审查。
数据使用与划分
- 训练集：包含 1,550 个样本，已发布标注以支持基于强化学习的优化。
- 开发集：包含 200 个样本，已发布真实标签用于模型微调。
- 测试集：包含 500 个样本，标签隐藏用于排行榜评估。
- 划分策略：作者应用经典测试理论，根据难度和区分度选择项目。测试集包含一个“哨兵池（Sentinel Pool）”，其中 100 个项目是当前模型无法解决的，以确保基准测试为未来模型的改进留有提升空间。
处理与构建细节
- 文档聚类：作者特意策划了多达 30 份相关文档的集群（例如连续报告），以支持真实的跨文档多跳问题。
- 标注协议：限制标注者使用外部世界知识，并指示他们创建必须依赖所提供语料库才能回答的问题。
- 人类基线：使用带有 BM25 搜索引擎的自定义 Web 界面收集人类基线，记录搜索轨迹和导航操作，以比较人类和智能体的检索策略。
- 偏差缓解：数据集仅包含英文，主要源自美国，特别关注可能包含个人身份信息（PII）的公共记录。

方法

作者正式定义了“智能体文档集合视觉问答”，这是一项要求系统导航、检索、推理并聚合异构文档集合中信息的任务。给定一个由多页 PDF 文档组成的语料库 $\mathcal{C}$ 和一个自然语言查询 $q$ ，任务是生成答案 $a$ 和最小证据集 $\mathcal{E}$ （由页面组成）。该框架通过分解、检索和分析的迭代循环运行。请参阅框架图以直观了解此过程，该图展示了问题如何被分解、相关文档如何从语料库中检索，以及信息如何被分析以生成带有归因的答案。

该任务具有六个正式属性，使其区别于标准文档问答。首先，该任务是抽取式的，意味着答案标记直接来自证据页面，而非抽象生成。其次，它支持多跳推理，证据集可能由需要聚合的多个不连续页面组成。第三，它在封闭世界假设下运行，答案仅源自语料库，不依赖参数化世界知识。第四，它要求基于证据的归因，确保答案忠实蕴含于最小证据集中。第五，该任务具有智能体特性，需要迭代检索和规划，无法通过单次前向传播解决。第六，它是视觉任务，需要理解非文本模态，如空间布局、表格结构和图表。

为了解决此任务，作者实现了一个搜索增强型智能体基线，结合了基于文本的检索与视觉 - 语言模型（VLM）推理。该智能体迭代搜索文档集合并分析检索到的页面图像。全文搜索索引是使用 Whoosh 搜索库从 OCR 提取的文本构建的。智能体在一个循环中运行，配备了一个 search_documents 工具，该工具返回匹配页面的渲染图像。这使得智能体能够利用 VLM 的视觉理解能力来处理对布局敏感的文档。智能体生成包含答案字符串和引用的结构化输出。

另一个基线涉及使用集成 semtools 的 Claude Agents SDK 的智能体方法。该智能体可访问可组合的 Unix 风格实用程序，用于解析、搜索和管理文档工作区。如下图所示，该智能体使用特定的用户提示和配置来执行 bash 管道并解释搜索结果。

作者还采用递归语言模型（RLMs）作为与任务无关的推理范式。该框架使模型能够通过编程方式在 REPL 环境中检查和分解输入，从而处理长上下文。文档语料库被加载为变量，模型可以生成递归的子 LLM 调用来处理上下文的子集。

为了分析问题，作者利用分类提示。其中一个提示根据答案类型将问题分类为 yes_no、binary_choice 或其他类别。如下图所示，这种分类有助于确定复杂度和所需的推理步骤。

此外，问题模态分类器用于确定是否需要视觉模态。该提示根据视觉要求对问题进行分类，例如自由文本、表格结构、图表解释或空间布局。如下图所示，这些定义量化了布局理解和视觉元素的重要性。

评估使用 LLM 裁判（Judge）提示进行。该提示根据与黄金变体的语义等价性来评估答案的正确性。标准区分了正确、部分正确和错误的答案。如下图所示，评估步骤包括检查拒绝回答、比较内容以及检查关键错误（如缺失比例限定词）。

评估过程继续进行格式和冗长度检查。如下图所示，裁判遵循逐步分析以提供最终判断，确保答案简洁并符合预期的输出格式。

进一步的评估规则强制执行严格的格式，例如将答案返回为短字符串列表而非完整句子。如下图所示，预期的输出格式包括答案、引用和搜索历史。

最后，作者使用 Kuiper 统计量分析检索过程的效率。该指标衡量相对于所付出努力的性能累积差异。如下图所示，图表展示了一个高效区域，其中性能增益较高，随后是一个收益递减的区域。

实验

构念效度实验证实，该基准测试需要语义推理和视觉理解，而非简单的词汇匹配或依赖参数化知识，因为基于关键词的检索精度较低，且模型在没有文档证据的情况下只能猜出少量答案。
视觉分析显示，超过一半的问题依赖于对结构化布局、表格或视觉元素的理解，表明仅靠文本的方法不足以应对大多数任务。
对智能体系统的评估表明，迭代规划显著优于静态检索方法，尽管检索仍然是主要瓶颈，即使拥有完美的搜索工具，顶级模型的表现仍大幅落后于人类。
错误分解表明，虽然较弱的模型主要因检索问题或过早拒绝回答而失败，但较强的模型则转向理解失败，这表明找到正确的文档正变得比提取精确答案更容易。
校准研究表明，人类在分配搜索努力方面比当前智能体更高效，后者往往在困难查询上消耗过多的计算资源，却未能识别何时停止，突显了策略性推理和自我纠正方面的差距。
多跳推理分析发现，证据源之间的语义距离比物理页面邻近度更能预测难度，且跨文档问题往往比同文档问题更容易，因为其结构边界更清晰。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

5 小时前

Łukasz Borchmann Jordy Van Landeghem Michał Turski Shreyansh Padarha Ryan Othniel Kearns Adam Mahdi Niels Rogge Clémentine Fourrier Siwei Han Huaxiu Yao

摘要

一句话总结

主要贡献

本文通过正式定义具有六个核心属性的“智能体文档集合视觉问答（Agentic Document Collection VQA）”，解决了多模态智能体究竟具备真正的策略性推理能力，还是依赖随机试错搜索的不确定性。
提出了 MADQA，这是一个基于经典测试理论设计的基准测试，包含 800 个异构 PDF 文档中的 2,250 个人工编写问题，旨在最大化对不同智能体能力的区分度。
一种新颖的评估协议通过衡量准确率与努力程度的权衡，揭示出顶级智能体虽然能达到人类的原始准确率，但由于依赖暴力搜索和无效循环，仍与理想性能（Oracle performance）存在 20% 的差距。

引言

数据集

MADQA 数据集概览

作者推出了多模态智能体文档问答（MADQA）基准测试，用于评估多模态大语言模型在企业环境中处理复杂、多阶段信息检索和推理任务的能力。

数据集构成与来源
- 语料库由 800 份人工精选的 PDF 文档组成，源自 DocumentCloud，涵盖 13 个高层领域和 63 个细粒度类别。
- 文档包含多样化的现实世界材料，如财务报告、法律文件、政府表格和技术手册，篇幅从单页摘要到 800 多页的文件不等。
- 该集合强调布局的异质性，包括财务文档中的高表格密度、技术报告中的大量图表以及法律记录中的高密度文本。
各子集的关键细节
- 总规模：数据集包含 2,250 个人工编写的问题 - 答案对，严格基于提供的文档。
- 推理类型：约 17.3% 的问题需要多跳推理，其中 8.3% 需要在单份文档内进行跨页综合，9.0% 需要跨文档聚合。
- 证据粒度：标注指定了页面级别的最低证据集，而非边界框，这与标准检索系统的操作相一致。
- 质量控制：通过涉及超过 1,200 小时专业工作的严格流程，确保了问题的可解性和无歧义性，并利用 GPT-5 进行自动检查，同时由领域专家进行人工审查。
数据使用与划分
- 训练集：包含 1,550 个样本，已发布标注以支持基于强化学习的优化。
- 开发集：包含 200 个样本，已发布真实标签用于模型微调。
- 测试集：包含 500 个样本，标签隐藏用于排行榜评估。
- 划分策略：作者应用经典测试理论，根据难度和区分度选择项目。测试集包含一个“哨兵池（Sentinel Pool）”，其中 100 个项目是当前模型无法解决的，以确保基准测试为未来模型的改进留有提升空间。
处理与构建细节
- 文档聚类：作者特意策划了多达 30 份相关文档的集群（例如连续报告），以支持真实的跨文档多跳问题。
- 标注协议：限制标注者使用外部世界知识，并指示他们创建必须依赖所提供语料库才能回答的问题。
- 人类基线：使用带有 BM25 搜索引擎的自定义 Web 界面收集人类基线，记录搜索轨迹和导航操作，以比较人类和智能体的检索策略。
- 偏差缓解：数据集仅包含英文，主要源自美国，特别关注可能包含个人身份信息（PII）的公共记录。

方法

评估过程继续进行格式和冗长度检查。如下图所示，裁判遵循逐步分析以提供最终判断，确保答案简洁并符合预期的输出格式。

进一步的评估规则强制执行严格的格式，例如将答案返回为短字符串列表而非完整句子。如下图所示，预期的输出格式包括答案、引用和搜索历史。

实验

构念效度实验证实，该基准测试需要语义推理和视觉理解，而非简单的词汇匹配或依赖参数化知识，因为基于关键词的检索精度较低，且模型在没有文档证据的情况下只能猜出少量答案。
视觉分析显示，超过一半的问题依赖于对结构化布局、表格或视觉元素的理解，表明仅靠文本的方法不足以应对大多数任务。
对智能体系统的评估表明，迭代规划显著优于静态检索方法，尽管检索仍然是主要瓶颈，即使拥有完美的搜索工具，顶级模型的表现仍大幅落后于人类。
错误分解表明，虽然较弱的模型主要因检索问题或过早拒绝回答而失败，但较强的模型则转向理解失败，这表明找到正确的文档正变得比提取精确答案更容易。
校准研究表明，人类在分配搜索努力方面比当前智能体更高效，后者往往在困难查询上消耗过多的计算资源，却未能识别何时停止，突显了策略性推理和自我纠正方面的差距。
多跳推理分析发现，证据源之间的语义距离比物理页面邻近度更能预测难度，且跨文档问题往往比同文档问题更容易，因为其结构边界更清晰。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

战略导航还是随机搜索？Agent 与人类如何在文档集合中进行推理

Łukasz Borchmann Jordy Van Landeghem Michał Turski Shreyansh Padarha Ryan Othniel Kearns Adam Mahdi Niels Rogge Clémentine Fourrier Siwei Han Huaxiu Yao5 more

摘要

一句话总结

主要贡献

引言

数据集

MADQA 数据集概览

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

战略导航还是随机搜索？Agent 与人类如何在文档集合中进行推理

Łukasz Borchmann Jordy Van Landeghem Michał Turski Shreyansh Padarha Ryan Othniel Kearns Adam Mahdi Niels Rogge Clémentine Fourrier Siwei Han Huaxiu Yao5 more

摘要

一句话总结

主要贡献

引言

数据集

MADQA 数据集概览

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

战略导航还是随机搜索？Agent 与人类如何在文档集合中进行推理

Łukasz Borchmann Jordy Van Landeghem Michał Turski Shreyansh Padarha Ryan Othniel Kearns Adam Mahdi Niels Rogge Clémentine Fourrier Siwei Han Huaxiu Yao5 more

摘要

一句话总结

主要贡献

引言

数据集

MADQA 数据集概览

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Łukasz Borchmann Jordy Van Landeghem Michał Turski Shreyansh Padarha Ryan Othniel Kearns Adam Mahdi Niels Rogge Clémentine Fourrier Siwei Han Huaxiu Yao

Łukasz Borchmann Jordy Van Landeghem Michał Turski Shreyansh Padarha Ryan Othniel Kearns Adam Mahdi Niels Rogge Clémentine Fourrier Siwei Han Huaxiu Yao

Łukasz Borchmann Jordy Van Landeghem Michał Turski Shreyansh Padarha Ryan Othniel Kearns Adam Mahdi Niels Rogge Clémentine Fourrier Siwei Han Huaxiu Yao