Un modèle de classement de clusters pour la résolution complète des anaphores

Les systèmes de résolution d’anaphore (coreférance) conçus pour le jeu de données CONLL 2012 ne parviennent généralement pas à traiter des aspects clés de la tâche complète de résolution d’anaphore, tels que l’identification des singletons et de certains types d’expressions non référantes (par exemple, les expletifs), car ces aspects ne sont pas annotés dans ce corpus. Toutefois, le jeu de données récemment publié pour la tâche partagée CRAC 2018 peut désormais être utilisé à cette fin. Dans cet article, nous proposons une architecture permettant d’identifier simultanément les expressions non référantes (y compris les expletifs, les prédicatifs et d’autres types) et de construire des chaînes de coreférance, y compris les singletons. Notre système de classement de clusters utilise un mécanisme d’attention afin de déterminer l’importance relative des mentions au sein d’un même cluster. Des classificateurs supplémentaires sont employés pour identifier les singletons et les marquables non référants. Nos contributions sont les suivantes. Premièrement, nous rapportons le premier résultat obtenu sur les données CRAC en utilisant des mentions produites par un système ; notre performance est supérieure de 5,8 % à celle du système de référence de la tâche partagée, qui utilisait des mentions dorées. Deuxièmement, nous démontrons que la disponibilité des clusters de singletons et des expressions non référantes peut conduire à une amélioration significative des performances sur les clusters non singletons. Troisièmement, nous montrons que, malgré le fait que notre modèle n’ait pas été spécifiquement conçu pour les données CONLL, il atteint un score équivalent à celui du système de pointe proposé par Kantor et Globerson (2019) sur ce jeu de données.