Extraction conjointe d'entités et de relations basée sur une stratégie de décomposition novatrice

L’extraction conjointe des entités et des relations vise à détecter des paires d’entités ainsi que leurs relations à l’aide d’un seul modèle. Les travaux antérieurs résolvent généralement cette tâche selon une approche « extraire puis classifier » ou selon une méthode d’étiquetage unifiée. Toutefois, ces méthodes souffrent soit de la présence de paires d’entités redondantes, soit de l’ignorance de la structure interne importante lors de l’extraction des entités et des relations. Pour surmonter ces limites, nous proposons dans cet article de décomposer la tâche d’extraction conjointe en deux sous-tâches interdépendantes : l’extraction des entités tête (HE) et l’extraction des entités queue et relations (TER). La première sous-tâche consiste à identifier toutes les entités tête susceptibles d’être impliquées dans des relations cibles, tandis que la seconde vise à détecter les entités queue et les relations correspondantes pour chaque entité tête extraite. Ces deux sous-tâches sont ensuite décomposées en plusieurs problèmes d’étiquetage de séquences grâce à un schéma d’étiquetage basé sur les segments (span-based tagging) que nous proposons, et peuvent être efficacement résolus par un détecteur hiérarchique de bornes et un algorithme de décodage multi-segments. Grâce à une stratégie de décomposition raisonnable, notre modèle parvient à capturer pleinement les dépendances sémantiques entre les différentes étapes, tout en réduisant le bruit provenant des paires d’entités non pertinentes. Les résultats expérimentaux montrent que notre méthode surpasser les approches antérieures de 5,2 %, 5,9 % et 21,5 % (score F1), atteignant ainsi un nouveau record sur trois jeux de données publics.