HyperAIHyperAI
il y a 3 mois

GlobalDoc : un cadre vision-langage multimodal pour la recherche et la classification d'images de documents du monde réel

Souhail Bakkali, Sanket Biswas, Zuheng Ming, Mickaël Coustaty, Marçal Rusiñol, Oriol Ramos Terrades, Josep Lladós
GlobalDoc : un cadre vision-langage multimodal pour la recherche et la classification d'images de documents du monde réel
Résumé

La compréhension visuelle des documents (VDU) a connu un développement rapide grâce à l’évolution des puissants modèles linguistiques multimodaux. Toutefois, ces modèles nécessitent généralement de vastes quantités de données pré-entraînées sur des documents pour apprendre des représentations intermédiaires, et ils subissent souvent une dégradation significative de performance dans des environnements industriels en ligne réels. Un problème majeur réside dans leur forte dépendance aux moteurs OCR (reconnaissance optique de caractères) pour extraire des informations de position locale au sein des pages de documents, ce qui limite leur capacité à capturer des informations globales et nuit à leur généralisation, flexibilité et robustesse. Dans cet article, nous introduisons GlobalDoc, une architecture basée sur un transformateur cross-modale, pré-entraînée de manière auto-supervisée à l’aide de trois nouvelles tâches de prétexte. GlobalDoc améliore l’apprentissage de concepts sémantiques plus riches en unifiant les représentations linguistiques et visuelles, aboutissant à des modèles plus transférables. Pour une évaluation adéquate, nous proposons également deux nouvelles tâches descendantes au niveau du document en VDU : la classification d’images de documents à faible exemplaire (Few-Shot Document Image Classification, DIC) et la récupération d’images de documents basée sur le contenu (Content-based Document Image Retrieval, DIR), conçues pour simuler plus fidèlement des scénarios industriels. Des expérimentations étendues ont été menées afin de démontrer l’efficacité de GlobalDoc dans des contextes pratiques.