16 天前
EAML:基于集成自注意力机制的互学习网络用于文档图像分类
Souhail Bakkali, Ziheng Ming, Mickael Coustaty, Marçal Rusiñol

摘要
近年来,复杂的深度神经网络在文档理解任务中受到广泛关注,例如文档图像分类与文档检索。由于多种文档类型具有独特的视觉风格,仅依靠深度卷积神经网络(CNN)学习视觉特征来进行文档图像分类,往往面临类别间区分度低、同一类别内部结构差异大的问题。与此同时,将文本层面的理解与文档图像中相应的视觉特征联合学习,显著提升了分类任务的准确率。本文提出一种基于自注意力机制的融合模块,作为集成可训练网络中的一个核心组件。该模块能够在训练过程中同步学习图像与文本模态的判别性特征。此外,我们通过在训练阶段实现图像与文本模态之间的正向知识迁移,促进两者之间的相互学习。这一约束通过引入一种新的正则化项——截断型Kullback-Leibler散度损失(Tr-KLD-Reg),嵌入传统的监督学习框架中得以实现。据我们所知,这是首次将相互学习机制与基于自注意力的融合模块相结合,用于文档图像分类任务。实验结果表明,所提出的方法在单模态与多模态设置下均显著提升了分类准确率。因此,所提出的集成式自注意力相互学习模型在基准数据集RVL-CDIP和Tobacco-3482上的分类性能优于现有最先进方法。