UniTrans : Modèle unifié de transfert de modèle et de transfert de données pour la reconnaissance d'entités nommées interlinguistique avec des données non étiquetées

Les travaux précédents en reconnaissance d'entités nommées (NER) interlinguistique avec peu ou pas de données étiquetées se répartissent en deux catégories principales : les méthodes basées sur le transfert de modèle et les méthodes basées sur le transfert de données. Dans cet article, nous constatons que ces deux types de méthodes peuvent se compléter. Le premier type peut exploiter des informations contextuelles grâce à des caractéristiques indépendantes de la langue, mais ne dispose d'aucune information spécifique à la tâche dans la langue cible ; tandis que le second type génère généralement des données d'entraînement pseudo-langue-cible par traduction, son exploitation des informations contextuelles est affaiblie par des traductions imprecises. De plus, les travaux antérieurs rarement utilisent les données non étiquetées dans la langue cible, qui peuvent être collectées sans effort et contiennent potentiellement des informations précieuses pour améliorer les résultats. Pour résoudre ces deux problèmes, nous proposons une nouvelle approche appelée UniTrans, visant à unifier le transfert de modèle et le transfert de données pour la NER interlinguistique, et à exploiter les informations disponibles provenant des données non étiquetées de la langue cible grâce à une distillation de connaissances améliorée. Nous évaluons notre approche UniTrans sur 4 langues cibles à l'aide de jeux de données de référence. Nos résultats expérimentaux montrent qu'elle dépasse considérablement les méthodes actuelles les plus performantes.