
摘要
文档预训练模型和基于网格的模型在文档人工智能(Document AI)的各种任务中已被证明非常有效。然而,对于文档布局分析(DLA)任务,现有的文档预训练模型,即使是在多模态环境下进行预训练的模型,通常也依赖于文本特征或视觉特征之一。基于网格的 DLA 模型虽然具有多模态特性,但很大程度上忽视了预训练的效果。为了充分利用多模态信息并利用预训练技术为 DLA 学习更好的表示方法,在本文中,我们提出了 VGT,一种双流视觉网格变换器(Vision Grid Transformer),其中引入了网格变换器(Grid Transformer, GiT),并对其进行了 2D 词元级和段落级语义理解的预训练。此外,我们整理并发布了名为 D$^4$LA 的新数据集,这是迄今为止最多样化且详尽的手动标注基准数据集,用于文档布局分析。实验结果表明,所提出的 VGT 模型在 DLA 任务上取得了新的最佳性能,例如在 PubLayNet 数据集上的表现从 $95.7\%$ 提升到 $96.2\%$,在 DocBank 数据集上的表现从 $79.6\%$ 提升到 $84.1\%$,以及在 D$^4$LA 数据集上的表现从 $67.7\%$ 提升到 $68.8\%$。代码、模型及 D$^4$LA 数据集将公开发布于 \url{https://github.com/AlibabaResearch/AdvancedLiterateMachinery}。