2 个月前

揭示预训练文本和布局模型在现实世界视觉丰富文档信息提取中的不足

Chong Zhang; Yixi Zhao; Yulu Xie; Chenshu Yuan; Yi Tu; Ya Guo; Mingxu Chai; Ziyu Shen; Yue Zhang; Qi Zhang

摘要

最近开发的预训练文本和布局模型（PTLMs）在视觉丰富文档（VrDs）的多个信息提取任务中表现出显著的成功。然而，尽管在基准测试中取得了极高的性能，这些模型在实际应用中的表现却未能达到预期。鉴于这一问题，我们对现有的评估流程进行了调查，揭示了以下两个主要问题：(1) 基准数据集中的注释不足导致任务输入和标签之间出现虚假相关性，从而导致对模型性能的过度乐观估计。(2) 评估仅依赖于基准测试的性能，不足以全面探索方法在现实场景中的能力。这些问题阻碍了现有评估流程真实反映方法的实际性能，误导了方法优化的设计选择。在这项工作中，我们引入了EC-FUNSD，这是一个专门用于评估视觉丰富文档信息提取的实体中心数据集。该数据集包含多样的布局和高质量的注释。此外，该数据集解耦了FUNSD块级注释中错误关联的段落和实体注释。利用所提出的数据集，我们从多个方面评估了PTLMs在实际信息提取任务中的能力，包括其绝对性能、泛化能力、鲁棒性和公平性。结果表明，现有的PTLMs在实际信息提取场景中的表现并不如预期那样出色。我们希望本研究能够激发对PTLM发展方向的反思。