15 天前
VLCDoC:用于跨模态文档分类的视觉-语言对比预训练模型
Souhail Bakkali, Zuheng Ming, Mickael Coustaty, Marçal Rusiñol, Oriol Ramos Terrades

摘要
近年来,从文档数据中进行多模态学习取得了显著进展,因其能够将语义上富有意义的特征作为先验知识预训练至可学习的下游任务中。本文通过融合语言与视觉线索,学习跨模态表示,同时考虑模态内部与模态之间的关系,以解决文档分类问题。与将不同模态特征合并至统一表示空间的传统方法不同,本文提出的方法侧重于高层级的模态间与模态内交互,通过有效注意力流挖掘相关语义信息。所提出的学习目标结合了模态内与模态间的对齐任务,其中每项任务的相似性分布通过在联合表示空间中压缩正样本对的同时对比负样本对来计算。在多个公开文档分类数据集上的大量实验表明,该模型在小规模与大规模数据集上均展现出优异的性能与良好的泛化能力。