Fusion de caractéristiques profondes visuelles et textuelles pour la classification d’images de documents

Le sujet de la classification d’images de documents textuels a été largement exploré au cours des dernières années. Les approches récentes ont généralement abordé cette tâche en apprenant conjointement les caractéristiques visuelles des images de documents et leurs contenus textuels correspondants. En raison de la diversité des structures des images de documents, l’extraction d’informations sémantiques à partir du contenu textuel s’avère particulièrement bénéfique pour diverses tâches de traitement d’images de documents, telles que la recherche de documents, l’extraction d’informations et la classification de texte. Dans ce travail, une architecture neurale à deux flux est proposée pour réaliser la classification d’images de documents. Nous menons une étude exhaustive des réseaux neuronaux largement utilisés actuellement ainsi que des procédés d’embedding de mots servant de squelettes (backbones), afin d’extraire à la fois les caractéristiques visuelles et textuelles à partir des images de documents. En outre, une méthode d’apprentissage conjoint des caractéristiques combinant les caractéristiques d’image et les embeddings textuels est introduite comme une approche de fusion tardive. L’analyse théorique et les résultats expérimentaux démontrent de manière concluante l’avantage de notre méthode proposée d’apprentissage conjoint des caractéristiques par rapport aux approches basées sur une seule modalité. Cette approche d’apprentissage conjointe surpasser les résultats les plus avancés à ce jour, atteignant une précision de classification de 97,05 % sur le grand jeu de données RVL-CDIP.