17 天前

BROS：一种专注于文本与版式信息的预训练语言模型，用于从文档中更高效地提取关键信息

Teakgyu Hong, Donghyun Kim, Mingi Ji, Wonseok Hwang, Daehyun Nam, Sungrae Park

摘要

从文档图像中进行关键信息提取（Key Information Extraction, KIE）需要理解文本在二维（2D）空间中的上下文与空间语义。近年来，许多研究致力于通过构建预训练语言模型，将文档图像中的视觉特征与文本及其布局信息相结合，以解决该任务。然而，本文另辟蹊径，回归问题本质：实现文本与布局信息的有效融合。为此，我们提出一种名为BROS（BERT Relying On Spatiality）的预训练语言模型，该模型能够编码文本在二维空间中的相对位置，并采用区域掩码（area-masking）策略，从大量未标注文档中进行学习。通过这一针对二维空间文本理解优化的训练机制，BROS在四个主流KIE基准测试（FUNSD、SROIE*、CORD和SciTSR）上表现出与现有方法相当甚至更优的性能，且无需依赖任何视觉特征。此外，本文还揭示了KIE任务中的两个现实挑战：（1）降低错误文本排序带来的误差；（2）在下游样本较少的情况下实现高效学习，并实证验证了BROS相较于先前方法的显著优势。相关代码已开源，地址为：https://github.com/clovaai/bros。