TPLinker : Extraction unique étape des entités et relations par liaison appariée de tokens

L'extraction d'entités et de relations à partir de textes non structurés a suscité un intérêt croissant ces dernières années, mais demeure un défi en raison de la difficulté intrinsèque à identifier des relations chevauchantes partageant une ou deux entités. Les travaux antérieurs montrent que l'apprentissage conjoint peut entraîner une amélioration notable des performances. Toutefois, ces approches impliquent généralement des étapes séquentielles interdépendantes et souffrent du problème de biais d'exposition. En effet, durant l'entraînement, elles utilisent des conditions de vérité terrain pour prédire, alors qu'en inférence, elles doivent effectuer l'extraction de zéro. Cette disparité entraîne une accumulation d'erreurs. Pour atténuer ce problème, nous proposons dans cet article un modèle d'extraction conjointe en une seule étape, nommé TPLinker, capable de découvrir des relations chevauchantes partageant une ou deux entités, tout en étant immunisé contre le biais d'exposition. TPLinker formule l'extraction conjointe comme un problème de liaison entre paires de tokens et introduit une nouvelle méthode d'étiquetage par « poignées de main », qui aligne les tokens limites des paires d'entités sous chaque type de relation. Les résultats expérimentaux montrent que TPLinker se distingue nettement dans l'extraction de relations chevauchantes et multiples, et atteint des performances de pointe sur deux jeux de données publics.