EAML : Réseau d'apprentissage mutuel basé sur l'attention auto-ensemble pour la classification d'images de documents

Dans le passé récent, les réseaux neuronaux profonds complexes ont suscité un vif intérêt dans diverses tâches de compréhension de documents, telles que la classification d’images de documents et la récupération de documents. Étant donné que de nombreux types de documents présentent un style visuel distinct, l’apprentissage uniquement des caractéristiques visuelles à l’aide de réseaux de neurones convolutifs profonds (CNN) pour la classification d’images de documents a rencontré des difficultés liées à une faible discrimination entre classes et à des variations structurelles élevées au sein des classes. Parallèlement, l’amélioration de la compréhension au niveau du texte, apprise conjointement avec les propriétés visuelles correspondantes au sein d’une même image de document, a considérablement accru la performance de classification en termes de précision. Dans cet article, nous proposons un module de fusion basé sur l’attention auto-associative, conçu comme un bloc au sein de notre réseau entraînable en ensemble. Ce module permet d’apprendre simultanément des caractéristiques discriminantes des modalités image et texte tout au long de l’étape d’entraînement. En outre, nous favorisons un apprentissage mutuel en transférant les connaissances positives entre les modalités image et texte durant l’entraînement. Cette contrainte est réalisée en ajoutant une perte de régularisation basée sur la divergence de Kullback-Leibler tronquée (Tr-KLD-Reg) au cadre supervisé classique. À notre connaissance, il s’agit de la première étude exploitant conjointement une approche d’apprentissage mutuel et un module de fusion basé sur l’attention auto-associative pour la classification d’images de documents. Les résultats expérimentaux démontrent l’efficacité de notre méthode en termes de précision, tant pour les modalités mono-modales que multi-modales. Ainsi, le modèle proposé, fondé sur une fusion auto-associative et un apprentissage mutuel en ensemble, surpasser les résultats les plus avancés de la littérature sur les jeux de données de référence RVL-CDIP et Tobacco-3482.