HyperAIHyperAI

Command Palette

Search for a command to run...

ParseBench:面向 AI Agents 的文档解析基准测试

Boyang Zhang Sebastián G. Acosta Preston Carlson Sacha Bron Pierre-Loic Doulcot Daniel B. Ospina Simon Suo

摘要

AI agent 正在改变文档解析(document parsing)的需求。现在的核心在于语义正确性(semantic correctness):解析输出必须保留自主决策所需的结构与含义,包括正确的表格结构、精确的图表数据、具有语义意义的格式化信息以及视觉定位(visual grounding)。现有的 benchmark 无法完全涵盖企业自动化对这一场景的需求,因为它们依赖于狭窄的文档分布和文本相似度指标,而这些指标往往会忽略对 agent 至关重要的失效情况。我们推出了 ParseBench,这是一个包含约 2,000 页经人工校验的企业文档 benchmark,涵盖了保险、金融和政府等领域。该 benchmark 围绕五个能力维度进行组织:表格(tables)、图表(charts)、内容忠实度(content faithfulness)、语义格式化(semantic formatting)以及视觉定位(visual grounding)。通过对涵盖 vision-language models、专用文档解析器(specialized document parsers)以及 LlamaParse 在内的 14 种方法进行评估,该 benchmark 揭示了目前能力分布碎片化的现状:没有任何一种方法能在所有五个维度上表现出持续的强劲实力。其中,LlamaParse Agentic 以 84.9% 的综合得分位居榜首。此外,该 benchmark 还凸显了当前系统仍存在的各项能力差距。数据集和评估代码已在 HuggingFace 和 GitHub 上发布。

一句话总结

ParseBench 评估了 14 种方法,涵盖视觉语言模型、专用文档解析器和 LlamaParse,基于来自保险、金融和政府领域的约 2,000 页经过人工验证的企业页面,使用表格、图表、内容忠实度、语义格式和视觉定位五个能力维度,优先关注语义正确性而非文本相似度指标,揭示了碎片化的能力格局,其中 LlamaParse Agentic 以 84.9% 的最高总分脱颖而出。

核心贡献

  • 本文介绍了 ParseBench,这是一个围绕五个能力维度组织的、包含约 2,000 页来自企业文档的人工验证页面的基准测试。该资源通过涵盖保险、金融和政府领域,解决了自主决策对语义正确性的需求。
  • 对涵盖视觉语言模型和专用解析器的 14 种方法的实验揭示了一个碎片化的能力格局,其中没有一种方法在所有维度上始终表现出色。结果表明 LlamaParse Agentic 以 84.9% 的总分达到最高,突显了当前系统仍存在的特定能力差距。
  • 该工作将视觉定位定义为定位、分类和归因的联合问题,以确保提取的声明可审计。数据集和评估代码已在 HuggingFace 和 GitHub 上发布,以促进企业自动化领域的未来研究。

引言

视觉定位衡量系统是否将生成的文档内容连接到页面上的正确区域。此指标对于 agent 和人工审核员至关重要,因为只有当提取的声明和表格可追溯到其源区域时,它们才是可审计的。解析器可以生成可读的 Markdown,但未能将单词分配到正确的视觉区域。作者将视觉定位评估为定位、分类和归因的联合问题。

数据集

  • 数据集构成与来源
    • 作者整理了来自超过 1,100 份企业文档的约 2,000 页经过人工验证的页面。
    • 来源包括公开可用的保险备案、财务报告、政府文件和行业出版物。
    • 该集合优先考虑生产级复杂性,如合并单元格、密集布局和多元素页面。
  • 各子集的关键细节
    • 表格: 评估结构保真度,包括使用完整 HTML 真值进行合并单元格和分层标题的测试。
    • 图表: 涵盖条形、折线、饼图和复合类型,带有注释的数据点而非完整表格,以处理视觉估计容差。
    • 内容忠实度: 测量 500 份采样 PDF 文档中的遗漏和幻觉,附带 Markdown 转录。
    • 语义格式: 测试删除线、上标、下标和粗体文本的保留情况,使用基于规则的布尔检查。
    • 视觉定位: 需要精确的边界框定位和内容归因,用于文本、表格和图片等元素。
  • 数据使用与评估
    • 该基准测试作为评估套件,而非所提出方法的训练集。
    • 测试了涵盖视觉语言模型和专用文档解析器的 14 种不同方法。
    • 评估依赖于超过 169K 条测试规则以及特定维度的指标,如 TableRecordMatch 和 ChartDataPointMatch。
  • 处理与标注策略
    • 裁剪: 解析整个 PDF 页面而非裁剪图像,以保留表格和图表的周围上下文。
    • 标注流程: 采用双阶段流程生成真值,前沿 VLM 生成初始标签,随后进行人工验证和修正。
    • 元数据: 数据集包含布局级阅读顺序和通用标签空间,以确保公平的跨模型比较。
    • 归一化: 文本比较去除 Markdown 格式并标准化 Unicode,以关注语义正确性。

方法

该研究将当前的文档解析方法分为两种不同的范式:通用视觉语言模型和专用文档解析器。通用视觉语言模型,如 GPT 和 Gemini,能够单次从文档图像中提取结构化内容。这些模型的子集,包括 Qwen-VL 和 Dots OCR,专门针对文档转录进行了微调,以较低的成本提供有竞争力的质量。这些模型在各种文档类型和布局上具有良好的泛化能力,无需特定任务的工程处理。然而,视觉定位仍然是大多数此类模型的弱点,尽管最近的迭代显示出改进。

相比之下,专用文档解析器采用结合布局检测、OCR 和表格识别模块的流水线方法。商业平台和开源流水线如 Docling 和 PaddleOCR 属于此类。这些系统在布局检测和空间定位方面表现出色,但往往难以适应训练分布之外的多样化文档格式。它们主要是为数字化工作流而构建,而非 agent 所需的开放式理解,通常缺乏对图表数据提取等能力的支持。

请参阅下图,了解现代文档解析系统关键能力和挑战的视觉分解。

该图突出了五个关键维度:Table Record Match、图表、内容忠实度、语义格式和视觉定位。这些维度代表了解析模型必须处理的复杂任务,范围从识别表格中的行和列键到从图表中提取确切数据点,以及保留文档层次结构和格式。

对于表格提取的具体任务,精确评估至关重要。作者利用称为 TableRecordMatch 的指标来量化真值与预测记录之间的对齐程度。该指标根据匹配的单元格对预测进行评分,并计入未匹配的条目。计算定义如下:

TableRecordMatch(G,P)=Per-pair scoringmax(G,P)\text{TableRecordMatch}(G, P) = \frac{\sum \text{Per-pair scoring}}{\max(|G|, |P|)}TableRecordMatch(G,P)=max(G,P)Per-pair scoring

请参阅下图,其中说明了表格记录匹配的流程。

该图展示了如何比较单个记录。对于每一对匹配的真值和预测记录,系统检查公司、收入和同比百分比字段是否匹配。未匹配的记录计入分母但不计入分子,确保对模型准确重建表格数据的能力进行严格评估。

实验

评估比较了 VLM、专用解析器和 LlamaParse 在包括表格、图表、内容忠实度、语义格式和视觉定位在内的五个维度上的表现。定性分析显示,VLM 在内容理解方面表现出色,但经常在结构布局和视觉定位方面失败,而专用解析器经常忽略具有语义意义的格式线索,如删除线或上标。LlamaParse Agentic 通过在包括图表数据提取和多列线性化在内的所有维度上保持高准确性而脱颖而出,从而为下游 agent 工作流建立了优越的质量 - 成本前沿。

作者展示了多列文档的内容忠实度细分,将文本正确性与阅读顺序分开,以揭示不同的失败模式。LlamaParse Agentic 在保持完美阅读顺序的同时保留文本准确性,优于所有其他提供商。竞争模型表现出特定的弱点,如列交错或内容重复,这对顺序或正确性子指标产生不成比例的影响。LlamaParse Agentic 实现了完美的阅读顺序和最高的整体忠实度得分。Haiku 4.5 保持较高的文本正确性,但由于列交错在阅读顺序上严重失败。Textract 合理地保留了阅读顺序,但受到内容重复的影响,降低了文本正确性。

作者评估了包括 VLM 和专用解析器在内的各种文档解析方法在多个能力维度上的表现。其提出的 LlamaParse 系统在 Agentic 配置下实现了最高的整体性能,优于 Gemini 3 Flash 和 Reducto 等领先基线。结果强调,虽然一些模型在内容忠实度方面表现出色,但所提出的系统在图表解析和视觉定位方面提供了更优越的能力。LlamaParse Agentic 实现了最高的整体性能,超越了专有 VLM 和专用文档解析器。该系统在图表解析和语义格式方面表现出特别的优势,许多竞争对手在这些领域的得分显著较低。布局感知方法在视觉定位方面优于标准 VLM,这仍然是单次通过模型的挑战。

作者利用 OECD 识字熟练度图表作为真值基准,评估文档解析器从复杂 3D 可视化中提取结构化数据的能力。该表格呈现了多个国家和教育水平的熟练度变化的参考值,解析器必须准确重现这些值才能通过评估规则。此设置专门测试在密集图表布局中将数值与正确的国家和教育标签关联的能力。该表格按国家和三个不同的教育程度水平组织熟练度变化。列区分了中等教育和高等教育的未调整和调整后指标。该基准针对瑞典和芬兰等国家的这些特定真值评估解析器准确性。

作者使用特定的信息图示例评估文档解析器保留语义格式(如粗体文本和标题层次结构)的能力。LlamaParse Agentic 通过保持完美的结构和样式优于所有竞争对手,而其他模型表现出不同的失败模式,如扁平化层次结构或完全忽略格式。LlamaParse Agentic 在语义格式、文本样式和标题准确性方面实现了完美表现。GPT-5 Mini 成功保留了内联文本样式,但未能保持正确的标题层次结构。Haiku 4.5 和 Textract 由于语法使用错误或缺乏格式保留而在文本样式方面未获得任何分数。

作者评估文档解析器在内容忠实度、图表解析、语义格式和视觉定位等多个维度上的表现,以评估其处理复杂布局的能力。LlamaParse Agentic 通过保持完美的阅读顺序和文本准确性,同时保留语义结构和精确的视觉元素定位,始终实现最高的整体性能。竞争模型表现出特定的弱点,如列交错或扁平化层次结构,表明布局感知方法在需要细粒度视觉理解的任务中优于标准 VLM。

作者评估文档解析器在包括内容忠实度、图表解析、语义格式和视觉定位在内的多个维度上的表现,以评估其处理复杂布局的能力。LlamaParse Agentic 始终实现最高的整体性能,通过保持完美的阅读顺序和文本准确性,同时保留语义结构和精确的视觉元素定位。竞争模型表现出特定的弱点,如列交错或扁平化层次结构,表明布局感知方法在需要细粒度视觉理解的任务中优于标准 VLM。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供