17 天前

BROS:一种专注于文本与版式信息的预训练语言模型,用于从文档中更高效地提取关键信息

Teakgyu Hong, Donghyun Kim, Mingi Ji, Wonseok Hwang, Daehyun Nam, Sungrae Park
BROS:一种专注于文本与版式信息的预训练语言模型,用于从文档中更高效地提取关键信息
摘要

从文档图像中进行关键信息提取(Key Information Extraction, KIE)需要理解文本在二维(2D)空间中的上下文与空间语义。近年来,许多研究致力于通过构建预训练语言模型,将文档图像中的视觉特征与文本及其布局信息相结合,以解决该任务。然而,本文另辟蹊径,回归问题本质:实现文本与布局信息的有效融合。为此,我们提出一种名为BROS(BERT Relying On Spatiality)的预训练语言模型,该模型能够编码文本在二维空间中的相对位置,并采用区域掩码(area-masking)策略,从大量未标注文档中进行学习。通过这一针对二维空间文本理解优化的训练机制,BROS在四个主流KIE基准测试(FUNSD、SROIE*、CORD和SciTSR)上表现出与现有方法相当甚至更优的性能,且无需依赖任何视觉特征。此外,本文还揭示了KIE任务中的两个现实挑战:(1)降低错误文本排序带来的误差;(2)在下游样本较少的情况下实现高效学习,并实证验证了BROS相较于先前方法的显著优势。相关代码已开源,地址为:https://github.com/clovaai/bros。