2 个月前
ERNIE-Layout:增强布局知识的预训练模型用于视觉丰富文档理解
Qiming Peng; Yinxu Pan; Wenjin Wang; Bin Luo; Zhenyu Zhang; Zhengjie Huang; Teng Hu; Weichong Yin; Yongfeng Chen; Yin Zhang; Shikun Feng; Yu Sun; Hao Tian; Hua Wu; Haifeng Wang

摘要
近年来,预训练技术在视觉丰富的文档理解领域取得了显著的进展和成功。然而,大多数现有方法缺乏对布局中心知识的系统挖掘和利用,导致性能次优。本文提出了一种新的文档预训练解决方案——ERNIE-Layout,在整个工作流程中增强布局知识,以学习更好的表示,结合文本、布局和图像的特征。具体而言,我们首先在序列化阶段重新排列输入序列,然后引入一个相关预训练任务——阅读顺序预测,以学习文档的正确阅读顺序。为了提高模型的布局感知能力,我们将空间感知解耦注意力机制集成到多模态变压器中,并在预训练阶段引入了替换区域预测任务。实验结果表明,ERNIE-Layout 在各种下游任务上表现出色,在关键信息提取、文档图像分类和文档问答数据集上达到了新的最先进水平。代码和模型已在 http://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-layout 公开发布。