2 个月前

LayoutLMv2：面向视觉丰富的文档理解的多模态预训练

Xu, Yang ; Xu, Yiheng ; Lv, Tengchao ; Cui, Lei ; Wei, Furu ; Wang, Guoxin ; Lu, Yijuan ; Florencio, Dinei ; Zhang, Cha ; Che, Wanxiang ; Zhang, Min ; Zhou, Lidong

查看论文详情

摘要

文本和布局的预训练已经在多种视觉丰富的文档理解任务中证明了其有效性，这得益于其高效的模型架构以及大规模未标注扫描/数字生成文档的优势。我们提出了新的预训练任务下的LayoutLMv2架构，以在单一多模态框架中建模文本、布局和图像之间的交互。具体而言，通过采用双流多模态Transformer编码器，LayoutLMv2不仅使用现有的掩码视觉-语言建模任务，还引入了新的文本-图像对齐和文本-图像匹配任务，这些任务使其在预训练阶段更好地捕捉跨模态交互。同时，该模型还将空间感知自注意力机制整合到Transformer架构中，从而使模型能够全面理解不同文本块之间的相对位置关系。实验结果显示，LayoutLMv2大幅超越了LayoutLM，并在一系列下游视觉丰富的文档理解任务上取得了最新的最佳结果，包括FUNSD（0.7895 → 0.8420）、CORD（0.9493 → 0.9601）、SROIE（0.9524 → 0.9781）、Kleister-NDA（0.8340 → 0.8520）、RVL-CDIP（0.9443 → 0.9564）和DocVQA（0.7295 → 0.8672）。我们已将模型和代码公开发布于\url{https://aka.ms/layoutlmv2}。