mLUKE : La Puissance des Représentations d'Entités dans les Modèles de Langue Pré-entraînés Multilingues

Des études récentes ont montré que les modèles de langage préentraînés multilingues peuvent être améliorés de manière efficace grâce aux informations d'alignement interlinguistique provenant des entités de Wikipédia. Cependant, les méthodes existantes n'exploitent ces informations d'entité qu'au cours du préentraînement et ne les utilisent pas explicitement dans les tâches en aval. Dans cette étude, nous explorons l'efficacité de l'utilisation des représentations d'entités pour les tâches interlinguistiques en aval. Nous entraînons un modèle de langage multilingue avec 24 langues en intégrant des représentations d'entités et démontrons que ce modèle surpasse constamment les modèles préentraînés basés sur les mots dans diverses tâches de transfert interlinguistique. Nous analysons également le modèle, dont la principale conclusion est que l'intégration des représentations d'entités à l'entrée permet d'extraire davantage de caractéristiques indépendantes du langage. En outre, nous évaluons le modèle à travers une tâche de complétion multilingue à partir du jeu de données mLAMA. Nous montrons que les prompts basés sur les entités sont plus susceptibles d'évoquer des connaissances factuelles correctes que ceux utilisant uniquement des représentations de mots. Notre code source et nos modèles préentraînés sont disponibles à l'adresse suivante : https://github.com/studio-ousia/luke.