Un modèle basé sur LayoutLMv3 pour une extraction de relations améliorée dans les documents visuellement riches

La compréhension de documents est un domaine en pleine évolution dans le traitement du langage naturel (NLP). En particulier, les caractéristiques visuelles et spatiales sont essentielles en plus du texte brut lui-même, d'où le développement de plusieurs modèles multimodaux dans le domaine de la compréhension visuelle des documents (VDU). Cependant, si la recherche se concentre principalement sur l'extraction d'informations clés (KIE), l'extraction de relations (RE) entre les entités identifiées reste encore peu étudiée. Par exemple, la RE est cruciale pour regrouper les entités ou obtenir une hiérarchie complète des données dans un document. Dans cet article, nous présentons un modèle initialisé à partir de LayoutLMv3 qui peut égaler ou surpasser les résultats actuels de pointe en RE appliquée aux documents visuellement riches (VRD) sur les jeux de données FUNSD et CORD, sans pré-entraînement spécifique et avec moins de paramètres. Nous rapportons également une étude d'ablation exhaustive réalisée sur FUNSD, soulignant l'impact majeur de certaines caractéristiques et choix de modélisation sur les performances.