Étude des connaissances entité dans BERT via un lien d'entité bout-en-bout neuronal simple

Une architecture typique pour les systèmes de liaison d'entités end-to-end repose sur trois étapes : la détection des mentions, la génération de candidats et la désambiguïsation des entités. Dans cette étude, nous explorons les questions suivantes : (a) Peut-on apprendre conjointement ces trois étapes à l’aide d’un modèle de représentations contextuelles du texte, tel que BERT (Devlin et al., 2019) ? (b) Quelle quantité de connaissance sur les entités est déjà intégrée dans BERT préentraîné ? (c) L’ajout de connaissance supplémentaire sur les entités améliore-t-il les performances de BERT sur des tâches en aval ? À cet effet, nous proposons une simplification extrême du cadre de liaison d’entités, qui se révèle étonnamment efficace : il suffit de reformuler la tâche comme une classification par token sur l’ensemble du vocabulaire d’entités (plus de 700 000 classes dans notre cas). Nous montrons sur un benchmark de liaison d’entités que (i) ce modèle améliore les représentations d’entités par rapport à BERT pur, (ii) qu’il surpasser les architectures classiques de liaison d’entités qui optimisent les tâches séparément, et (iii) qu’il ne se classe qu’en deuxième position derrière l’état de l’art actuel, qui traite conjointement la détection des mentions et la désambiguïsation des entités. En outre, nous évaluons l’utilité des représentations de tokens sensibles aux entités sur les benchmarks de compréhension du texte GLUE, ainsi que sur les benchmarks de réponse aux questions SQUAD V2 et SWAG, et également sur le benchmark de traduction automatique EN-DE WMT14. À notre grande surprise, nous constatons que la plupart de ces benchmarks ne tirent pas profit de la connaissance supplémentaire sur les entités, à l’exception d’une tâche à très faible quantité de données d’entraînement, à savoir la tâche RTE du benchmark GLUE, qui affiche une amélioration de 2 %.