3 个月前
GlobalDoc:一种用于真实世界文档图像检索与分类的跨模态视觉-语言框架
Souhail Bakkali, Sanket Biswas, Zuheng Ming, Mickaël Coustaty, Marçal Rusiñol, Oriol Ramos Terrades, Josep Lladós

摘要
视觉文档理解(Visual Document Understanding, VDU)随着强大多模态语言模型的发展而迅速进步。然而,这些模型通常需要大量文档预训练数据以学习中间表示,在真实世界中的在线工业场景中往往面临显著的性能下降。其主要问题在于对光学字符识别(OCR)引擎的过度依赖,以提取文档页面内的局部位置信息,这限制了模型捕捉全局语义信息的能力,从而影响其泛化性、灵活性与鲁棒性。本文提出一种基于跨模态Transformer架构的GlobalDoc模型,该模型通过三种新颖的自监督预训练任务进行无监督预训练,有效提升了模型对丰富语义概念的学习能力。通过统一语言与视觉表征,GlobalDoc实现了更优的语义融合,从而获得更具迁移性的模型表现。为实现更贴近工业实际的评估,我们进一步设计了两个全新的文档级下游VDU任务:少样本文档图像分类(Few-Shot Document Image Classification, DIC)与基于内容的文档图像检索(Content-based Document Image Retrieval, DIR)。大量实验结果表明,GlobalDoc在实际应用场景中展现出卓越的性能与有效性。