2 个月前
LayoutLMv3: 统一文本和图像遮罩的文档人工智能预训练
Huang, Yupan ; Lv, Tengchao ; Cui, Lei ; Lu, Yutong ; Wei, Furu

摘要
自监督预训练技术在文档人工智能(Document AI)领域取得了显著进展。大多数多模态预训练模型使用掩码语言建模目标来学习文本模态的双向表示,但在图像模态的预训练目标上存在差异。这种差异增加了多模态表示学习的难度。本文中,我们提出了LayoutLMv3,通过统一的文本和图像掩码方法对多模态Transformer进行预训练,以解决这一问题。此外,LayoutLMv3还通过一个词-块对齐目标进行预训练,该目标通过预测某个文本词对应的图像块是否被掩码来学习跨模态对齐。简单的统一架构和训练目标使得LayoutLMv3成为适用于以文本为中心和以图像为中心的文档人工智能任务的通用预训练模型。实验结果表明,LayoutLMv3不仅在以文本为中心的任务中(如表单理解、收据理解和文档视觉问答)达到了最先进的性能,而且在以图像为中心的任务中(如文档图像分类和文档布局分析)也表现出色。代码和模型已在 \url{https://aka.ms/layoutlmv3} 公开发布。