il y a 3 mois

CAW-coref : Résolution de coreférence au niveau des mots sensible aux conjonctions

Karel D&#39, Oosterlinck, Semere Kiros Bitew, Brandon Papineau, Christopher Potts, Thomas Demeester, Chris Develder

Résumé

Les systèmes d’état de l’art en résolution de coreférence reposent sur plusieurs appels à des modèles linguistiques à grande échelle (LLM) par document, ce qui les rend prohibitivement coûteux pour de nombreuses applications (par exemple, l’extraction d’information à partir de grandes corpora). Le système de résolution de coreférence au niveau des mots (WL-coref), actuellement leader, atteint 96,6 % de la performance des systèmes d’état de l’art tout en étant bien plus efficace. Dans ce travail, nous identifions un cas d’échec fréquent mais crucial du WL-coref : la gestion des mentions conjointes, telles que « Tom et Mary ». Nous proposons une solution simple mais efficace, qui améliore la performance sur le jeu de test OntoNotes de 0,9 point de F1, réduisant ainsi l’écart entre la résolution de coreférence au niveau des mots efficace et les approches d’état de l’art coûteuses de 34,6 %. Notre modèle de résolution de coreférence au niveau des mots sensible aux conjonctions (CAW-coref), ainsi que son code source, sont disponibles à l’adresse suivante : https://github.com/KarelDO/wl-coref.