2 个月前

阅读顺序很重要:通过令牌路径预测从视觉丰富文档中提取信息

Zhang, Chong ; Guo, Ya ; Tu, Yi ; Chen, Huan ; Tang, Jinyang ; Zhu, Huijia ; Zhang, Qi ; Gui, Tao
阅读顺序很重要:通过令牌路径预测从视觉丰富文档中提取信息
摘要

近期在多模态预训练模型方面的进展显著提升了从视觉丰富文档(VrDs)中提取信息的能力,其中命名实体识别(NER)被视作一个序列标注任务,即预测每个标记的BIO实体标签,遵循典型的自然语言处理(NLP)设置。然而,BIO标注方案依赖于模型输入的正确顺序,而在现实世界中的扫描VrDs上进行NER时,这一顺序无法保证,因为文本是由OCR系统识别并排列的。这种阅读顺序问题阻碍了BIO标注方案对实体的准确标记,使得序列标注方法无法正确预测命名实体。为了解决阅读顺序问题,我们引入了Token Path Prediction(TPP),这是一种简单的预测头,用于预测文档中作为标记序列出现的实体提及。与传统的标记分类不同,TPP将文档布局建模为一个完整的有向图,并在图中预测标记路径作为实体。为了更好地评估VrD-NER系统,我们还提出了两个修订后的基准数据集,这些数据集可以反映现实场景中的扫描文档NER任务。实验结果证明了我们方法的有效性,并表明其在各种文档信息提取任务中具有成为通用解决方案的潜力。

阅读顺序很重要:通过令牌路径预测从视觉丰富文档中提取信息 | 最新论文 | HyperAI超神经