StrucTexTv2 : Prédiction visuelle-textuelle masquée pour le pré-entraînement d'images de documents

Dans cet article, nous présentons StrucTexTv2, un cadre de pré-entraînement efficace pour les images de documents, basé sur la prédiction visuelle et textuelle masquée. Il comprend deux tâches de pré-entraînement auto-supervisées : le modèle d'image masquée et le modèle de langage masqué, tous deux fondés sur le masquage des images au niveau des régions textuelles. La méthode proposée masque aléatoirement certaines régions d'images en fonction des coordonnées des boîtes englobantes des mots textuels. Les objectifs de nos tâches de pré-entraînement consistent à reconstruire simultanément les pixels des régions d'images masquées et les jetons correspondants également masqués. Ainsi, l'encodeur pré-entraîné peut capturer davantage de sémantique textuelle par rapport au modèle d'image masquée qui prédit généralement les patches d'images masquées. Comparativement aux méthodes de modélisation multimodale masquée pour la compréhension des images de documents qui dépendent à la fois des modalités image et texte, StrucTexTv2 modélise une entrée uniquement image et peut potentiellement traiter plus de scénarios d'application sans nécessiter un pré-traitement OCR. Des expériences approfondies sur les principaux jeux de données de référence pour la compréhension des images de documents démontrent l'efficacité de StrucTexTv2. Il atteint une performance compétitive ou même nouvelle state-of-the-art dans diverses tâches en aval telles que la classification d'images, l'analyse de mise en page, la reconnaissance de structure tabulaire, l'OCR de documents et l'extraction d'informations dans un scénario end-to-end.