Liaison d'entités par modélisation explicite de la coreférence entre mentions

L'apprentissage de représentations des mentions d'entités constitue un élément central des systèmes modernes de liaison d'entités, tant pour la génération de candidats que pour la prédiction de liaison. Dans cet article, nous présentons et analysons empiriquement une nouvelle méthode d'entraînement visant à apprendre des représentations de mentions et d'entités, fondée sur la construction d'arborescences couvrantes minimales (c’est-à-dire des arbres couvrants orientés) sur les mentions et entités réparties dans plusieurs documents, afin de modéliser explicitement les relations de coreférence des mentions. Nous démontrons l'efficacité de notre approche en montrant des améliorations significatives tant en rappel de génération de candidats qu’en précision de liaison sur le jeu de données Zero-Shot Entity Linking et sur MedMentions, le plus grand jeu de données biomédicales publiquement disponible. En outre, nous illustrons que nos améliorations dans la génération de candidats permettent d’obtenir des modèles de ré-évaluation de meilleure qualité en aval, établissant ainsi un nouveau record d’état-de-l’art (SOTA) en précision de liaison sur MedMentions. Enfin, nous démontrons que nos représentations améliorées des mentions sont également efficaces pour la découverte d’entités nouvelles via la coreférence entre documents.