
摘要
视觉丰富的文档理解(VrDU)近年来吸引了大量研究关注。基于Transformer架构的预训练模型在大量文档图像上取得了显著的性能提升。主要挑战在于如何在一个统一的模型中融合文档的不同模态(文本、布局和图像),并设计不同的预训练任务。本文专注于改进文本与布局之间的交互,并提出了一种新的多模态预训练模型——LayoutMask。LayoutMask 使用局部一维位置而非全局一维位置作为布局输入,并具有两个预训练目标:(1)掩码语言建模:通过两种新颖的掩码策略预测被掩码的标记;(2)掩码位置建模:预测被掩码的二维位置以提高布局表示学习。LayoutMask 可以增强统一模型中文本和布局模态之间的交互,并为下游任务生成自适应且鲁棒的多模态表示。实验结果表明,所提出的 方法在多种VrDU问题上均能达到最先进的水平,包括表单理解、收据理解和文档图像分类。