HyperAIHyperAI

Command Palette

Search for a command to run...

CiteVQA:用于可信文档智能的证据归因基准测试

摘要

多模态大语言模型(MLLMs)在文档理解方面取得了显著进展,然而当前的文档视觉问答(Doc-VQA)评估仅对最终答案进行评分,而未对支持性证据进行核查。这种仅关注答案的方法掩盖了一种关键故障模式:模型可能在基于错误段落进行定位的情况下得出正确答案——这在法律、金融和医疗等高风险领域构成了严重风险,因为这些领域的每一个结论都必须能够追溯至特定的来源区域。为解决这一问题,我们引入了 CiteVQA,这是一个要求模型在提供每个答案的同时返回元素级边界框引用的基准测试,从而对两者进行联合评估。CiteVQA 包含来自 711 个 PDF 文件的 1,897 个问题,涵盖七个领域和两种语言,平均每份文档包含 40.6 页。为确保保真度和可扩展性,真实引用(ground-truth citations)通过自动化流水线生成——该流水线通过掩码消融(masking ablation)识别关键证据——随后由专家审核进行验证。我们评估的核心指标是严格归因准确率(Strict Attributed Accuracy, SAA),仅当答案和所引用的区域均正确时,才认可预测结果。对 20 个 MLLMs 的审计揭示了普遍存在的归因幻觉(Attribution Hallucination)现象:模型经常给出正确的答案,却引用了错误的区域。表现最强的系统(Gemini-3.1-Pro-Preview)的 SAA 仅为 76.0,而最强的开源 MLLM 仅达到 22.5。最终,为了构建可信的文档智能,CiteVQA 揭示了仅基于答案的评估所忽视的可靠性差距,并提供了弥补这一差距所需的工具。我们的代码库位于 https://github.com/opendatalab/CiteVQA

一句话总结

与以往仅评估最终答案的方法不同,CiteVQA 通过联合评估最终答案与元素级边界框引用,利用严格归因准确率(Strict Attributed Accuracy)推进可信文档智能,从而揭示普遍存在的归因幻觉现象,并为高风险领域提供严谨的评估工具。

核心贡献

  • 本文提出 CiteVQA,这是一个要求多模态模型在提供最终答案的同时返回元素级边界框引用的基准测试。该数据集包含来自 711 份多页 PDF 的 1,897 个问题,涵盖七个领域和两种语言。真实引用通过自动化掩码消融流程生成,并经专家审核验证。
  • 该工作确立了严格归因准确率(SAA)指标,仅当文本答案与引用的视觉区域均正确时才给予预测得分。该评估协议通过联合验证,克服了传统仅答案评分固有的可靠性缺陷。
  • 对 20 个多模态大语言模型的审计发现了一种普遍的归因幻觉现象,即系统在生成正确答案的同时频繁引用错误的文档区域。基线结果显示,最强的闭源系统 SAA 为 76.0,而顶级开源模型仅为 22.5。

引言

文档视觉问答与基于证据的推理已成为医疗和法律等高风险领域的关键技术,在这些领域中,防止大语言模型幻觉并确保可验证的信息提取至关重要。然而,现有基准测试仍主要关注答案本身,依赖粗略的页面级标注或缺乏标准化的评估协议。现有的文档智能系统在精确的元素级定位方面也存在困难,而当前指标无法验证复杂多领域布局中的推理路径或视觉可追溯性。为解决这些不足,研究引入了 CiteVQA,这是一个跨页面框架,标准化了元素级边界框引用并实施了联合评估指标。该方法独特地同时测量答案准确性与结构可追溯性,从而能够在真实文档中针对精确的视觉证据对模型推理进行严格审计。

数据集

数据集构成与来源

  • 研究引入 CiteVQA,这是一个基准测试,包含源自 711 份 PDF 文档的 1,897 个问题,涵盖七个领域、30 个子类别及两种语言。
  • 文档平均长度为 40.6 页,数据来源于 Common Crawl,通过分层采样流程筛选,该流程基于领域和语言分布过滤了超过 1 亿份原始 PDF。
  • 数据集平衡了单文档任务(52.0%)与多文档场景,其中包括单金标准文档情况(25.7%)和多金标准文档情况(22.3%)。
  • 每个问题平均需要 2.57 个证据元素,约 30% 的证据包含表格、图像或公式等非文本内容。

关键细节与子集

  • 该基准测试覆盖从复杂综合到多模态解析的多样化推理类型,确保广泛的领域代表性。
  • 证据在文档位置中均匀分布,且频繁跨越多个页面,要求具备强大的长上下文聚合能力。
  • 数据集包含从各种开源来源蒸馏的问题,经过模板生成处理以模拟真实业务场景。
  • 人类专家审计验证了 200 个实例的子集,确认了问题难度适当且标注质量高。

数据处理与构建

  • 构建过程依赖自动化流程,通过语义对齐与基于 LLM 的元数据集成实现多文档链接。
  • 深度解析利用 MinerU2.5 提取边界框坐标与 OCR 内容,同时 MLLM agents 在解析空间中导航,将支持性事实聚合为证据包。
  • QA 对通过模板驱动蒸馏合成,其中 MLLMs 选择逻辑模板并基于证据特征生成问题。
  • 质量控制包括可答性验证以确保证据充分性、语言多样性改写,以及用于剔除常识性问题的零文档自测。
  • 关键证据通过基于消融的掩码技术识别,即逐个掩码元素以验证其对推导正确答案的必要性。

使用与评估策略

  • 研究将 CiteVQA 用作严格的评估基准而非训练集,并对 20 个主流多模态模型进行审计。
  • 评估核心为严格归因准确率,仅当答案与引用区域均正确时才给予预测得分。
  • 附加指标通过召回率评估证据覆盖率,并通过相关性评估逻辑对齐情况,以诊断模型行为。
  • 该基准测试揭示了普遍的归因幻觉现象,即模型基于错误证据生成正确答案,当前最先进模型的 SAA 最高仅为 76.0。

元数据与裁剪规范

  • 元数据包含结构化空间坐标与文档标识符,边界框坐标以相对于页面图像的 0 至 1000 的数值提供。
  • 元数据中的页码从 1 开始索引,忽略源文档的原始页码。
  • 引用规则强制采用元素级粒度,要求证据必须对应完整的段落、表格、图像或注释,而非部分文本或行。
  • 表格和图像的标题与脚注被标注为具有独立边界框的独立证据元素,以确保精确的视觉定位。
  • 输出格式要求边界框标签必须附带于引用证据之后,以便对每一项声明的视觉来源进行直接验证。

方法

CiteVQA 系统的框架由四个主要阶段组成:多文档链接、证据包提取、QA 构建与质量控制。整体流程始于多文档链接,过滤后的文档池经过语义聚合形成链接文档组。该阶段利用语义画像机制为每份文档生成高层描述符,随后将其编码为归一化向量。对于锚点文档,基于余弦相似度选择 Top-K 候选文档,形成候选池,确保仅有上下文相关的文档进入细粒度分析阶段。

如图所示,细粒度对齐流程采用大语言模型(LLM)对锚点文档与候选文档的各章节单元执行思维链推理。模型通过分析文档的结构层级识别文档间的逻辑桥梁,并输出结构化关联组,每组包含锚点章节、候选章节、相似度分数及推理依据。系统根据分数保留最佳匹配项并过滤不可靠关联,确保高信息密度并降低噪声。

第二阶段为证据包提取,涉及解析文档以收集高质量、可验证的证据束。该过程通过多步流程实现,包括文档解析与 agent 探索。系统提取 OCR 文本、边界框与逻辑关系以构成证据包。每个包必须满足特定标准:必须跨越至少两个页面,包含至少两种元素类型(如文本、表格、图形或布局),并为任何提取的元素提供完整上下文。输出为证据束列表,每个束包含描述及相关元素集合。

在 QA 构建阶段,进行问题收集与模板蒸馏以合成 QA 对。系统使用从收集的问题中派生的模板生成结构化 QA 对,确保生成的答案基于提取的证据。最后阶段为质量控制,涉及 QA 验证与改写,以保证生成响应的准确性与连贯性。这包括证据消融以评估关键证据的影响,并确保生成的答案不过度依赖非关键信息。

该框架旨在保持细粒度文档细节与遵循不同模型家族架构限制之间的平衡。输入分辨率标准化为 1024×10241024 \times 10241024×1024 像素,这代表了当前大多数多模态大语言模型(MLLMs)的关键饱和点。该分辨率在避免上下文约束限制的同时,确保了精确定位的维持。实验中的推理设置保持统一,最大输出长度为 4,096 tokens,并使用特定模型配置以最大化推理能力。部署基础设施采用 8×NVIDIA H200 GPU,以确保一致的延迟并为高分辨率文档处理提供充足的 VRAM。

实验

该评估在 CiteVQA 基准测试上检验了二十款先进多模态语言模型,以验证其在多样化文档格式中实现准确问答、可靠空间定位及证据归因的能力。实验揭示了一种普遍的归因幻觉现象,即模型经常生成正确答案但无法精确定位或引用支持性证据,专有系统表现显著优于在基础页面导航方面存在困难的开源替代方案。在跨文档和复杂布局场景中性能急剧下降,但证据质量与答案准确性之间的强正相关表明,增强自主空间定位能力是提升专业应用中推理能力与可靠性的根本。

评估使用一套衡量答案正确性与定位质量的指标,对多模态语言模型的证据归因能力进行分析。结果显示,所有模型在答案准确率与严格归因准确率之间存在显著差距,表明存在普遍问题,即模型能够生成正确答案却无法将其与支持性证据正确关联。不同模型类型的表现差异较大,闭源模型优于开源模型,且在多文档设置中归因难度大幅增加。模型经常获得高答案准确率,但无法将响应正确定位到具体证据,这种现象被称为“归因幻觉”。闭源模型在证据归因方面显著优于开源模型,所有指标均观察到显著的性能差距。在多文档场景中归因难度明显增加,即使顶级模型在定位与召回性能上也出现大幅下滑。

该实验使用包含多样化文档类型、问题类型与证据来源的数据集,评估多模态大语言模型在证据归因任务上的表现。结果显示模型间存在显著性能差距,尤其在将答案链接到正确文档位置方面,许多模型在生成正确答案的同时,仍无法定位相关页面或准确引用证据。模型经常无法定位正确的文档页面,表明粗粒度归因存在根本性挑战。答案正确性与证据归因之间存在差异,许多模型获得高答案准确率但归因分数较低。不同问题类型的表现差异显著,定量推理任务较易于多模态解析,后者需要精确的证据定位。

该表格展示了各种多模态大语言模型在不同文档场景下的综合评估结果,突显了闭源模型与开源模型之间的显著性能差异。结果显示闭源模型在证据归因方面普遍优于开源模型,严格归因准确率存在明显差距,表明归因幻觉是一个常见问题,即模型提供正确答案但未能正确定位其来源。与单文档任务相比,多文档设置中的性能大幅下降,尤其是开源模型,而定位正确页面的能力是所有模型类别的主要瓶颈。闭源模型在证据归因方面显著优于开源模型,尤其在多文档场景中。答案正确性与严格归因准确率之间存在广泛差距,表明归因幻觉是普遍问题。定位正确文档页面是一项重大挑战,所有模型在多文档设置中的性能均急剧下降。

评估使用自动化评审器分析模型在证据归因任务上的表现,并将其得分与人类专家评分进行比较。结果显示,自动化评审器在相关性与答案正确性指标上产生的得分与人类评估在统计上无显著差异,表明自动化评估流程的可靠性。分析进一步揭示模型表现出不同水平的性能,部分模型获得高答案正确性但相关性得分较低,表明准确答案与忠实证据定位之间存在差异。自动化评审器产生的得分与人类专家评分无统计学差异,验证了评估方法的可靠性。模型在答案正确性与相关性之间存在性能差距,表明生成正确答案与提供充分定位证据之间存在脱节。GPT-5.4 与 Gemini-3.1-Pro 获得高答案正确性得分但在相关性上存在差异,突显了证据归因方面不同的优势。

评估使用一套综合指标分析多模态大语言模型的证据归因能力,该指标同时评估答案正确性与定位质量。结果显示所有模型在答案准确率与严格归因准确率之间存在显著差距,表明普遍问题,即模型能够生成正确答案却无法将其与支撑证据正确关联。不同模型类型的表现差异较大,闭源模型优于开源模型,且在多文档设置中任务难度大幅增加,因为面临页面级导航与精确证据定位的双重挑战。模型经常获得高答案正确性但未能正确归因证据,表明存在广泛的归因幻觉问题。闭源模型在证据归因方面显著优于开源模型,严格归因准确率存在明显性能差距。多文档场景大幅降低性能,尤其在页面级召回与证据定位方面,突显了跨文档推理的挑战。

实验使用多样化的文档类型与问题格式评估多模态大语言模型在证据归因任务上的表现,并通过与人类专家评分对比验证自动评分的可靠性。结果一致揭示答案正确性与严格证据定位之间存在明显脱节,突显了模型生成准确响应却未能正确引用支撑材料的广泛现象。虽然闭源架构通常优于开源对应模型,但在多文档环境中性能大幅下降,强调了跨文档导航与精确定位面临的重大挑战。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供