17 天前
DocFormer v2:面向文档理解的局部特征
Srikar Appalaraju, Peng Tang, Qi Dong, Nishant Sankaran, Yichu Zhou, R. Manmatha

摘要
我们提出 DocFormerv2,这是一种用于视觉文档理解(Visual Document Understanding, VDU)的多模态Transformer模型。VDU任务不仅限于简单的光学字符识别(OCR)预测,还包括从表单中提取信息、文档视觉问答(VQA)等复杂任务。该领域具有挑战性,因为模型需要整合视觉、语言和空间等多种模态信息,才能做出准确的预测。我们的方法——DocFormerv2,是一种编码器-解码器架构的Transformer模型,其输入包含视觉特征、语言特征和空间特征。在预训练阶段,我们采用非监督任务,并以不对称的方式设计:在编码器部分引入两项新颖的文档级任务,解码器部分则设置一项自回归任务。这些非监督任务经过精心设计,旨在促进多模态之间局部特征的对齐。在九个公开数据集上的实验结果表明,DocFormerv2在多个基准任务上均达到当前最优性能,显著优于现有强基线模型,例如在TabFact任务上提升4.3%,InfoVQA任务上提升1.4%,FUNSD任务上提升1%。为进一步验证其泛化能力,我们在三项涉及场景文本的VQA任务上进行了评估,结果表明,DocFormerv2在性能上超越了以往同等规模的模型,甚至在某些任务上优于参数量远大于它的大型模型(如GIT2、PaLi和Flamingo)。大量消融实验进一步证实,得益于其独特的预训练策略,DocFormerv2在多模态理解方面显著优于现有先进方法,展现出更强的跨模态感知与融合能力。