FILTER : Une méthode améliorée de fusion pour la compréhension des langues multilingues

Les grands modèles linguistiques multilingues (LM), tels que mBERT, Unicoder et XLM, ont connu un succès remarquable dans l'apprentissage de représentations multilingues. Toutefois, lorsqu'ils sont appliqués à des tâches de transfert multilingue en zéro-shot, la plupart des méthodes existantes utilisent uniquement des entrées dans une seule langue pour le fine-tuning du modèle, sans exploiter l'alignement intrinsèque entre les différentes langues, qui s'avère essentiel pour les tâches multilingues. Dans cet article, nous proposons FILTER, une méthode améliorée de fusion qui utilise des données multilingues comme entrée pour le fine-tuning de XLM. Plus précisément, FILTER encode d'abord indépendamment le texte source et sa traduction cible dans les couches superficielles, puis réalise une fusion entre les langues afin d'extraire des connaissances multilingues au niveau des couches intermédiaires, avant de procéder à un nouvel encodage spécifique à chaque langue. Lors de l'inférence, le modèle effectue des prédictions à partir du texte cible et de sa traduction dans la langue source. Pour des tâches simples telles que la classification, le texte traduit dans la langue cible partage la même étiquette que le texte source. Toutefois, cette étiquette commune devient moins précise, voire inexistante, pour des tâches plus complexes telles que la réponse à des questions, l'extraction d'entités nommées (NER) ou l'étiquetage morphosyntaxique (POS). Pour surmonter ce problème, nous proposons également une perte supplémentaire de self-teaching basée sur la divergence de Kullback-Leibler (KL), fondée sur des pseudo-étiquettes douces auto-générées pour le texte traduit dans la langue cible. Des expérimentations étendues montrent que FILTER atteint un nouveau état de l'art sur deux défis multilingues et multitâches difficiles : XTREME et XGLUE.