2 个月前

LayoutMask：增强多模态预训练中的文本布局交互以提升文档理解能力

Yi Tu; Ya Guo; Huan Chen; Jinyang Tang

摘要

视觉丰富的文档理解（VrDU）近年来吸引了大量研究关注。基于Transformer架构的预训练模型在大量文档图像上取得了显著的性能提升。主要挑战在于如何在一个统一的模型中融合文档的不同模态（文本、布局和图像），并设计不同的预训练任务。本文专注于改进文本与布局之间的交互，并提出了一种新的多模态预训练模型——LayoutMask。LayoutMask 使用局部一维位置而非全局一维位置作为布局输入，并具有两个预训练目标：（1）掩码语言建模：通过两种新颖的掩码策略预测被掩码的标记；（2）掩码位置建模：预测被掩码的二维位置以提高布局表示学习。LayoutMask 可以增强统一模型中文本和布局模态之间的交互，并为下游任务生成自适应且鲁棒的多模态表示。实验结果表明，所提出的方法在多种VrDU问题上均能达到最先进的水平，包括表单理解、收据理解和文档图像分类。