Rappel, Élargissement et Codage Croisé Multi-Candidats : Rapide et Précis pour le Typage Ultra-Fin des Entités

Le typage d'entités ultra-fines (UFET) prédit des types extrêmement libres (par exemple, président, politicien) d'une mention d'entité donnée (par exemple, Joe Biden) dans un contexte. Les méthodes de pointe (SOTA) utilisent une architecture basée sur le codificateur croisé (CE). Le CE concatène la mention (et son contexte) avec chaque type et alimente les paires dans un modèle de langage préformé (PLM) pour évaluer leur pertinence. Cette approche favorise une interaction plus profonde entre la mention et les types, améliorant ainsi les performances, mais elle nécessite N passages en avant (la taille de l'ensemble des types) pour inférer les types d'une seule mention. Par conséquent, le CE est très lent lors de l'inférence lorsque l'ensemble des types est important (par exemple, N = 10 000 pour UFET). Afin de résoudre ce problème, nous proposons de réaliser le typage d'entités selon une méthode rappel-élargissement-filtrage. Les étapes de rappel et d'élargissement réduisent l'ensemble des types importants et génèrent K candidats de type les plus pertinents (K est généralement inférieur à 256) pour chaque mention. À l'étape de filtrage, nous utilisons un nouveau modèle appelé MCCE pour encoder et évaluer simultanément ces K candidats en un seul passage en avant afin d'obtenir la prédiction finale du type. Nous examinons différentes variantes de MCCE et des expériences approfondies montrent que MCCE sous notre paradigme atteint des performances SOTA en typage d'entités ultra-fines et est des milliers de fois plus rapide que le codificateur croisé. Nous avons également constaté que MCCE est très efficace en typage d'entités fines (130 types) et grossières (9 types). Notre code est disponible à l'adresse \url{https://github.com/modelscope/AdaSeq/tree/master/examples/MCCE}.