2 个月前
基于LayoutLMv3的模型在视觉丰富文档中增强关系抽取
Wiam Adnan; Joel Tang; Yassine Bel Khayat Zouggari; Seif Edinne Laatiri; Laurent Lam; Fabien Caspani

摘要
文档理解是自然语言处理(NLP)领域的一个不断发展的研究方向。特别是在视觉文档理解(VDU)中,除了原始文本本身外,视觉和空间特征也至关重要,因此该领域开发了多种多模态模型。然而,尽管研究主要集中在关键信息提取(KIE),已识别实体之间的关系提取(RE)仍然未得到充分研究。例如,关系提取对于重组实体或在文档中获得全面的数据层次结构至关重要。本文提出了一种基于LayoutLMv3初始化的模型,在FUNSD和CORD数据集上应用于视觉丰富文档(VRD)的关系提取时,该模型能够在没有特定预训练且参数较少的情况下达到或超过当前最先进的结果。我们还在FUNSD数据集上进行了广泛的消融研究,突显了某些特征和建模选择对性能的巨大影响。