LayoutMask : Améliorer l'interaction texte-mise en page dans le pré-entraînement multi-modale pour la compréhension des documents

La compréhension de documents visuellement riches (VrDU) a suscité une grande attention de la part des chercheurs ces dernières années. Les modèles pré-entraînés sur un grand nombre d'images de documents avec des architectures à base de transformateurs ont permis d'obtenir des gains de performance significatifs dans ce domaine. Le défi majeur consiste à fusionner les différentes modalités (texte, mise en page et image) des documents dans un modèle unifié avec diverses tâches de pré-entraînement. Cet article se concentre sur l'amélioration des interactions texte-mise en page et propose un nouveau modèle de pré-entraînement multi-modal, LayoutMask. LayoutMask utilise des positions locales 1D au lieu de positions globales 1D comme entrée de mise en page et dispose de deux objectifs de pré-entraînement : (1) Modélisation linguistique masquée : prédire les jetons masqués avec deux nouvelles stratégies de masquage ; (2) Modélisation positionnelle masquée : prédire les positions 2D masquées pour améliorer l'apprentissage des représentations de mise en page. LayoutMask peut renforcer les interactions entre les modalités texte et mise en page dans un modèle unifié et produire des représentations multi-modales adaptatives et robustes pour les tâches en aval. Les résultats expérimentaux montrent que notre méthode proposée peut atteindre des performances d'état de l'art sur une large gamme de problèmes VrDU, notamment la compréhension des formulaires, la compréhension des reçus et la classification d'images de documents.