Extraction d'entités basée sur le document comme génération de modèle

L'extraction d'entités au niveau du document (EE), visant à extraire des informations centrées sur les entités telles que leurs rôles et leurs relations, est essentielle pour l'acquisition automatique de connaissances à partir de corpus textuels dans divers domaines. La plupart des systèmes d'EE au niveau du document construisent des modèles extractifs, qui peinent à modéliser les dépendances à long terme entre les entités au niveau du document. Pour résoudre ce problème, nous proposons un cadre génératif pour deux tâches d'EE au niveau du document : l'extraction d'entités pour remplir des rôles (REE) et l'extraction de relations (RE). Nous formulons ces tâches comme un problème de génération de modèles, permettant aux modèles de capturer efficacement les dépendances inter-entités, d'exploiter la sémantique des étiquettes et d'éviter la complexité exponentielle du calcul des relations N-aire. Un nouveau mécanisme de copie guidé par une attention croisée, appelé TopK Copy, est intégré dans un modèle pré-entraîné de séquence à séquence afin d'améliorer les capacités d'identification des informations clés dans le document d'entrée. Les expériences menées sur les ensembles de données MUC-4 et SciREX montrent de nouveaux résultats state-of-the-art en REE (+3,26 %), en RE binaire (+4,8 %) et en RE quaternaire (+2,7 %) en termes de score F1.