Résolution de la coréférence d'ordre supérieur avec une inférence de grossière à fine

Nous présentons une approximation entièrement différentiable de l'inférence d'ordre supérieur pour la résolution de co-référence. Notre approche utilise la distribution des antécédents issue d'une architecture de classement d'intervalles comme mécanisme d'attention pour affiner itérativement les représentations d'intervalles. Cela permet au modèle de prendre en compte de manière douce plusieurs étapes dans les clusters prédits. Pour atténuer le coût computationnel de ce processus itératif, nous introduisons une approche grossière à fine qui intègre un facteur bilinéaire moins précis mais plus efficace, permettant une élagage plus agressif sans nuire à la précision. Comparée à l'approche actuelle de pointe basée sur le classement d'intervalles, notre modèle améliore considérablement la précision sur le benchmark anglais OntoNotes, tout en étant bien plus efficace sur le plan computationnel.