Reconnaissance Croisée des Entités Nommées à l'Aide d'un Corpus Parallèle : Une Nouvelle Approche Utilisant l'Alignement XLM-RoBERTa

Nous proposons une nouvelle approche pour le transfert zéro-shot de la Reconnaissance d'Entités Nommées (NER) interlinguistique en utilisant des corpus parallèles. Nous avons construit un modèle d'alignement d'entités basé sur XLM-RoBERTa afin de projeter les entités détectées dans la partie anglaise des données parallèles vers les phrases de la langue cible, dont la précision dépasse tous les modèles non supervisés précédents. Grâce à ce modèle d'alignement, nous pouvons obtenir un ensemble de données NER pseudo-étiqueté dans la langue cible pour entraîner un modèle spécifique à la tâche. Contrairement aux méthodes de traduction, cette approche bénéficie de la fluidité naturelle et des nuances du corpus original en langue cible. Nous proposons également une fonction de perte modifiée similaire à la perte focale mais qui attribue des poids dans le sens inverse pour améliorer encore davantage l'entraînement du modèle sur des ensembles de données pseudo-étiquetés bruyants. Nous avons évalué cette approche proposée sur 4 langues cibles à l'aide de jeux de données de référence et avons obtenu des scores F1 compétitifs comparables à ceux des modèles SOTA (State-of-the-Art) les plus récents. Nous avons également mené des discussions supplémentaires sur l'impact de la taille et du domaine du corpus parallèle sur les performances finales du transfert.