17 天前

DocXClassifier:面向文档图像分类的高性能可解释深度网络

{Sheraz Ahmed, Andreas Dengel, Stefan Agne, Saifullah}
摘要

卷积神经网络(Convolutional Neural Networks, ConvNets)在文档图像分类领域已得到广泛研究,以其在单模态图像驱动的文档分类任务中卓越的性能而著称。然而,近年来该领域出现了一种显著趋势,即转向多模态方法,这些方法能够同时学习文档的视觉与文本特征。尽管此类方法带来了显著的进展,但也导致了对纯基于ConvNets方法改进的兴趣逐渐减弱。这一现象并不理想,因为目前许多多模态方法仍以ConvNets作为其视觉特征提取的主干网络,因此持续提升ConvNets的性能对于推动整体多模态分类能力至关重要。本文提出了一种基于ConvNets的新型文档分类方法——DocXClassifier。该方法融合了前沿的模型设计范式,结合现代数据增强技术与先进的训练策略,在图像驱动的文档分类任务中实现了显著的性能提升,甚至超越了部分近期提出的多模态分类方法。此外,DocXClassifier具备生成类似Transformer注意力图(attention maps)的能力,使其具备内在可解释性,这一特性在以往基于图像的分类模型中尚属首次实现。在两个主流文档图像数据集RVL-CDIP和Tobacco3482上,我们的方法取得了新的性能巅峰:在RVL-CDIP数据集上达到94.17%的Top-1分类准确率,在Tobacco3482数据集上达到95.57%。尤其值得注意的是,该模型在Tobacco3482数据集上不依赖从RVL-CDIP进行迁移学习的情况下,仍实现了高达90.14%的图像分类准确率,创下该任务的新纪录。综上所述,本文提出的DocXClassifier不仅在图像分类性能上达到新高度,更可作为未来多模态文档理解方法的强大视觉主干网络,其输出的视觉特征远比现有方法更为丰富,具有广阔的应用前景。

DocXClassifier:面向文档图像分类的高性能可解释深度网络 | 最新论文 | HyperAI超神经