2 个月前

GeoLayoutLM:几何预训练用于视觉信息提取

Luo, Chuwei ; Cheng, Changxu ; Zheng, Qi ; Yao, Cong
GeoLayoutLM:几何预训练用于视觉信息提取
摘要

视觉信息提取(VIE)在文档智能中发挥着重要作用。通常,它被分为两个任务:语义实体识别(SER)和关系抽取(RE)。近年来,预训练文档模型在VIE领域取得了显著进展,特别是在SER任务上。然而,大多数现有的模型以隐式方式学习几何表示,这已被证明对于RE任务来说是不够的,因为几何信息对RE尤为重要。此外,我们发现限制RE性能的另一个因素在于预训练阶段和微调阶段之间的目标差距。为了解决这些问题,本文提出了一种多模态框架——GeoLayoutLM,用于VIE。GeoLayoutLM在预训练过程中显式建模几何关系,我们称之为几何预训练。几何预训练通过三个专门设计的与几何相关的预训练任务来实现。此外,精心设计了新的关系头模块,这些模块通过几何预训练任务进行预训练,并针对RE任务进行微调,以丰富和增强特征表示。根据在标准VIE基准上的广泛实验结果,GeoLayoutLM在SER任务中取得了非常有竞争力的分数,并且在RE任务上显著超越了之前的最先进方法(例如,在FUNSD数据集上,RE的F1分数从80.35%提升到了89.45%)。代码和模型已在以下网址公开发布:https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/DocumentUnderstanding/GeoLayoutLM

GeoLayoutLM:几何预训练用于视觉信息提取 | 最新论文 | HyperAI超神经