DocXClassifier : Réseau profond explicatif à haute performance pour la classification d'images de documents
Les réseaux de neurones convolutifs (ConvNets) ont été largement étudiés pour la classification d’images de documents et sont reconnus pour leurs performances exceptionnelles dans la classification d’images unimodales. Cependant, récemment, le domaine a connu un changement soudain vers des approches multimodales, qui apprennent simultanément à partir des caractéristiques visuelles et textuelles des documents. Bien que cette évolution ait permis des progrès significatifs, elle a également entraîné une baisse d’intérêt pour l’amélioration des approches fondées exclusivement sur les ConvNets. Ce phénomène est préoccupant, car de nombreuses approches multimodales continuent d’utiliser les ConvNets comme squelette visuel, rendant indispensable l’amélioration de ces derniers pour renforcer l’ensemble des méthodes multimodales. Dans ce papier, nous présentons DocXClassifier, une approche basée sur les ConvNets qui, en combinant des schémas de conception de modèles de pointe avec des stratégies modernes d’augmentation de données et d’entraînement, non seulement atteint des améliorations significatives dans la classification d’images de documents, mais dépasse également certaines des approches multimodales récemment proposées. En outre, DocXClassifier est capable de générer des cartes d’attention similaires à celles des transformeurs, ce qui lui confère une interprétabilité intrinsèque, une caractéristique absente des modèles antérieurs de classification d’images. Notre approche établit un nouveau record de performance dans la classification d’images sur deux jeux de données populaires de documents, à savoir RVL-CDIP et Tobacco3482, avec une précision au top-1 de 94,17 % et 95,57 % respectivement. En outre, elle établit un nouveau record de précision de classification d’images atteignant 90,14 % sur Tobacco3482 sans apprentissage par transfert à partir de RVL-CDIP. Enfin, le modèle proposé peut servir de squelette visuel puissant pour les futures approches multimodales, en fournissant des caractéristiques visuelles bien plus riches que celles des modèles existants.