BROS : un Modèle Linguistique Pré-entraîné Axé sur le Texte et la Mise en Page pour une Extraction Améliorée des Informations Clés à Partir de Documents

L'extraction clé d'informations (KIE) à partir d'images de documents nécessite une compréhension des sémantiques contextuelles et spatiales des textes dans un espace bidimensionnel (2D). De nombreuses études récentes tentent de résoudre cette tâche en développant des modèles pré-entraînés sur langage, en mettant l'accent sur la combinaison des caractéristiques visuelles issues des images de documents avec les textes et leur mise en page. À l'inverse, ce papier aborde le problème en revenant aux fondamentaux : une combinaison efficace entre texte et mise en page. Plus précisément, nous proposons un modèle pré-entraîné sur langage, nommé BROS (BERT Relying On Spatiality), qui encode les positions relatives des textes dans l'espace 2D et apprend à partir de documents non étiquetés grâce à une stratégie de masquage par zone. Grâce à cette stratégie d'entraînement optimisée pour la compréhension des textes dans l'espace 2D, BROS obtient des performances comparables ou supérieures à celles des méthodes antérieures sur quatre benchmarks de KIE (FUNSD, SROIE*, CORD et SciTSR), sans dépendre des caractéristiques visuelles. Ce travail met également en lumière deux défis réels dans les tâches de KIE : (1) minimiser l'erreur due à un ordre incorrect des textes, et (2) apprendre efficacement à partir d'un nombre réduit d'exemples en phase de fine-tuning. Il démontre ainsi l'avantage de BROS par rapport aux méthodes précédentes. Le code est disponible à l'adresse suivante : https://github.com/clovaai/bros.