il y a 11 jours

Sur la généralisation dans la résolution de coréférence

Shubham Toshniwal, Patrick Xia, Sam Wiseman, Karen Livescu, Kevin Gimpel

Résumé

Bien que la résolution de coreférence soit définie indépendamment du domaine des données, la plupart des modèles proposés pour effectuer cette tâche ne se transforment pas efficacement vers des domaines inédits. Nous rassemblons un ensemble de 8 jeux de données de résolution de coreférence ciblant des domaines différents afin d’évaluer les performances « out-of-the-box » des modèles. Ensuite, nous combinons trois de ces jeux de données pour l’entraînement ; bien que leurs domaines, leurs directives d’annotation et leurs métadonnées diffèrent, nous proposons une méthode permettant d’entraîner un seul modèle de manière conjointe sur cette combinaison hétérogène de données, en utilisant une augmentation de données pour tenir compte des différences d’annotation et un échantillonnage pour équilibrer les quantités de données. Nous constatons qu’en configuration zéro-shot, les modèles entraînés sur un seul jeu de données se transforment mal, tandis que l’entraînement conjoint permet d’obtenir des performances globales améliorées, conduisant à une meilleure généralisation des modèles de résolution de coreférence. Ce travail contribue ainsi à un nouveau benchmark pour la résolution de coreférence robuste ainsi qu’à plusieurs nouveaux résultats état-de-l’art.