Classification efficace d’images de documents à l’aide d’un réseau neuronal graphique basé sur les régions

La classification d’images de documents reste un domaine de recherche populaire en raison de sa capacité à être commercialisée dans de nombreuses applications entreprises à travers divers secteurs industriels. Les avancées récentes dans les grands modèles pré-entraînés en vision par ordinateur et en traitement du langage, ainsi que dans les réseaux de neurones graphiques, ont fourni à la classification d’images de documents un large éventail d’outils. Toutefois, l’utilisation de ces grands modèles pré-entraînés nécessite généralement des ressources informatiques importantes, ce qui peut annuler les avantages économiques liés à la réduction des coûts offerts par une classification automatisée des images de documents. Dans cet article, nous proposons un cadre efficace pour la classification d’images de documents, basé sur des réseaux de convolution de graphes et intégrant de manière cohérente des informations textuelles, visuelles et de mise en page du document. Nous avons rigoureusement évalué notre algorithme par rapport à plusieurs modèles d’état de l’art en vision et traitement du langage, sur des jeux de données publics ainsi qu’un jeu de données réel issu d’une application d’assurance. Les résultats expérimentaux obtenus sur les données publiques et les données du monde réel montrent que notre méthode atteint des performances proches de l’état de l’art, tout en nécessitant significativement moins de ressources informatiques et de temps pour l’entraînement et l’inférence. Cela conduit à des solutions offrant des avantages coût plus importants, particulièrement dans le déploiement à grande échelle pour les applications entreprises. Les résultats démontrent que notre algorithme parvient à une performance de classification très proche de celle de l’état de l’art. Nous fournissons également des comparaisons détaillées en termes de ressources informatiques, de taille de modèle, de temps d’entraînement et d’inférence entre notre méthode proposée et les modèles de référence. En outre, nous analysons le coût par image associé à notre approche ainsi qu’aux méthodes de base.