Extraction de relations entre entités comme analyse syntaxique dépendante dans les documents riches en éléments visuels

Les travaux antérieurs sur l'extraction d'informations clés à partir de documents riches en contenu visuel (VRDs) se concentrent principalement sur l'étiquetage du texte contenu dans chaque boîte englobante (c’est-à-dire l’entité sémantique), tandis que les relations entre ces entités restent largement inexplorées. Dans cet article, nous adaptons le modèle populaire de parsing syntaxique, le parser biaffine, à la tâche d'extraction de relations entre entités. Contrairement au modèle original de parsing syntaxique qui identifie les relations de dépendance entre mots, nous détectons les relations entre des groupes de mots en intégrant des informations de mise en page. Nous avons comparé différentes représentations des entités sémantiques, différents encodeurs de documents VRD, ainsi que divers décodeurs de relations. Les résultats montrent que notre modèle proposé atteint un score F1 de 65,96 % sur le jeu de données FUNSD. En ce qui concerne les applications réelles, notre modèle a été déployé sur des données douanières internes, où il a démontré une performance fiable dans un environnement de production.