Résolution de la coreférance à l’aide d’un système transitionnel seq2seq

La plupart des systèmes récents de résolution de coréférence utilisent des algorithmes de recherche sur des intervalles possibles afin d’identifier les mentions et de résoudre les coréférences. Nous proposons à la place un système de résolution de coréférence fondé sur un paradigme textuel à textuel (seq2seq) permettant de prédire simultanément les mentions et les liens. Nous implémentons ce système comme un système de transition et utilisons T5 multilingue comme modèle linguistique sous-jacent. Nous atteignons une précision de pointe sur les jeux de données CoNLL-2012, avec un score F1 de 83,3 pour l’anglais (soit une amélioration de 2,3 par rapport aux travaux antérieurs, Dobrovolskii, 2021), un score de 68,5 pour l’arabe (+4,1 de plus que les travaux antérieurs) et un score de 74,3 pour le chinois (+5,3). En outre, nous utilisons les jeux de données SemEval-2010 pour des expériences dans des configurations à zéro apprentissage (zero-shot), à peu d’exemples (few-shot) et supervisée, en exploitant toutes les données d’entraînement disponibles. Nous obtenons des scores F1 à zéro apprentissage nettement supérieurs pour 3 des 4 langues par rapport aux approches antérieures, et dépassons significativement les résultats d’état de l’art supervisés pour les cinq langues testées.