REXEL : Un Modèle de bout en bout pour l’Extraction de Relations et le Liage d’Entités au Niveau du Document

L'extraction d'informations structurées à partir de textes non structurés est cruciale pour de nombreuses applications en aval du traitement du langage naturel (NLP) et est traditionnellement réalisée par l'extraction d'informations fermée (cIE). Cependant, les approches existantes pour la cIE souffrent de deux limitations : (i) elles sont souvent des pipelines, ce qui les rend vulnérables à la propagation des erreurs, et/ou (ii) elles sont limitées au niveau de la phrase, ce qui empêche la capture de dépendances à longue portée et entraîne des temps d'inférence coûteux. Nous abordons ces limitations en proposant REXEL, un modèle très efficace et précis pour la tâche conjointe d'extraction d'informations fermées au niveau du document (DocIE). REXEL effectue la détection de mentions, le typage d'entités, la désambiguïsation d'entités, la résolution de co-référence et la classification des relations au niveau du document en une seule passe avant pour produire des faits entièrement liés à un graphe de connaissances de référence. En moyenne, il est 11 fois plus rapide que les approches concurrentes dans un cadre similaire et offre des performances compétitives tant lorsqu'il est optimisé pour l'une quelconque des sous-tâches individuelles que pour diverses combinaisons de tâches conjointes différentes, surpassant les modèles de base d'en moyenne plus de 6 points F1. La combinaison de vitesse et de précision fait de REXEL un système précis et rentable pour l'extraction d'informations structurées à l'échelle du Web. Nous mettons également à disposition une extension du jeu de données DocRED afin de permettre le benchmarking des travaux futurs sur DocIE, disponible sur https://github.com/amazon-science/e2e-docie.