DoPTA : Amélioration de l'analyse de la mise en page des documents grâce à l'alignement patch-texte

L'arrivée de l'apprentissage multimodal a apporté une amélioration significative à l'intelligence artificielle des documents (document AI). Les documents sont désormais traités comme des entités multimodales, intégrant à la fois des informations textuelles et visuelles pour l'analyse en aval. Cependant, les travaux dans ce domaine se concentrent souvent sur l'aspect textuel, utilisant l'espace visuel comme information auxiliaire. Bien que certains travaux aient exploré des techniques purement basées sur la vision pour la compréhension des images de documents, ils nécessitent un texte identifié par reconnaissance optique de caractères (OCR) en entrée lors de l'inférence, ou ne s'alignent pas avec le texte dans leur procédure d'apprentissage. Nous présentons donc une nouvelle technique d'alignement image-texte spécialement conçue pour exploiter les informations textuelles dans les images de documents afin d'améliorer les performances sur les tâches visuelles. Notre modèle d'encodeur de document DoPTA, formé avec cette technique, montre de solides performances sur une large gamme de tâches de compréhension des images de documents, sans nécessiter d'OCR pendant l'inférence. Associé à un objectif auxiliaire de reconstruction, DoPTA surpassent constamment des modèles plus grands tout en utilisant considérablement moins de ressources informatiques pour le pré-entraînement. De plus, DoPTA établit de nouveaux résultats d'état de l'art sur D4LA et FUNSD, deux benchmarks difficiles pour l'analyse visuelle des documents.