11 天前
DocFormer:面向文档理解的端到端Transformer
Srikar Appalaraju, Bhavan Jasani, Bhargava Urala Kota, Yusheng Xie, R. Manmatha

摘要
我们提出 DocFormer——一种基于多模态Transformer的架构,用于视觉文档理解(Visual Document Understanding, VDU)任务。VDU是一项具有挑战性的任务,旨在理解格式多样、布局复杂的文档(如表单、收据等)。此外,DocFormer采用精心设计的无监督预训练任务进行预训练,以促进多模态之间的交互。该模型融合文本、视觉和空间特征,并通过一种新颖的多模态自注意力机制进行整合。同时,DocFormer在不同模态间共享学习到的空间嵌入表示,从而使得模型能够高效地建立文本标记与视觉标记之间的关联,反之亦然。我们在四个不同数据集上对DocFormer进行了评估,每个数据集均设有较强的基线模型。实验结果表明,DocFormer在所有数据集上均取得了当前最优性能,部分任务中甚至超越了参数量为其四倍的模型。