VSR : Un cadre unifié pour l'analyse de la mise en page des documents combinant Vision, Sémantique et Relations

L’analyse de disposition des documents est essentielle pour comprendre la structure des documents. Sur cette tâche, la vision, les aspects sémantiques des documents ainsi que les relations entre les composants de disposition contribuent au processus d’interprétation. Bien que de nombreuses approches aient été proposées pour exploiter ces informations, leurs résultats restent insatisfaisants. Les méthodes basées sur le traitement du langage naturel (NLP) modélisent l’analyse de disposition comme une tâche d’étiquetage de séquence, mais présentent des capacités limitées en modélisation de la disposition. Les méthodes basées sur la vision par ordinateur (CV) la modélisent comme une tâche de détection ou de segmentation, mais souffrent de limitations liées à une fusion modale inefficace et au manque de modélisation des relations entre les composants. Pour surmonter ces limites, nous proposons un cadre unifié, VSR, pour l’analyse de disposition des documents, intégrant de manière cohérente vision, sémantique et relations. VSR est compatible avec à la fois les approches NLP et CV. Plus précisément, nous introduisons d’abord la vision à partir de l’image du document et la sémantique à partir de cartes d’encodage textuel. Ensuite, des caractéristiques visuelles et sémantiques spécifiques aux modalités sont extraites à l’aide d’un réseau à deux voies, puis fusionnées de manière adaptative afin d’exploiter pleinement les informations complémentaires. Enfin, à partir de candidats de composants, un module de relations basé sur un réseau de graphes est intégré pour modéliser les interactions entre les composants et produire les résultats finaux. Sur trois benchmarks populaires, VSR dépasse largement les modèles précédents. Le code sera bientôt rendu public.