7 天前

LAMBERT:面向信息抽取的布局感知(语言)建模

Łukasz Garncarek, Rafał Powalski, Tomasz Stanisławek, Bartosz Topolski, Piotr Halama, Michał Turski, Filip Graliński
LAMBERT:面向信息抽取的布局感知(语言)建模
摘要

我们提出一种新颖且简洁的方法,用于解决文档理解中非平凡版式布局对局部语义产生影响的问题。为此,我们对Transformer编码器架构进行了改进,使其能够利用光学字符识别(OCR)系统提取的版式特征,而无需从零开始重新学习语言语义。我们仅通过在模型输入中加入词元(token)边界框的坐标信息来实现这一目标,从而避免使用原始图像数据。这一设计使得模型具备版式感知能力,随后可针对下游任务进行微调。我们在四个公开可用的数据集(Kleister NDA、Kleister Charity、SROIE 和 CORD)上对模型进行了端到端信息抽取任务的评估。实验结果表明,该模型在视觉信息丰富的文档数据集上表现优异,同时在版式较为简单的文档上也优于基线模型RoBERTa(NDA数据集的F₁分数从78.50提升至80.42)。在SROIE数据集的关键信息抽取任务中,我们的方法在公开排行榜上排名第一,将当前最优(SOTA)的F₁分数由97.81提升至98.17。

LAMBERT:面向信息抽取的布局感知(语言)建模 | 最新论文 | HyperAI超神经