Pré-entraînement de la traduction automatique neurale multilingue en exploitant les informations d’alignement

Nous nous intéressons à la question suivante en traduction automatique (TA) : peut-on développer un modèle unique et universel de TA afin de servir de base commune, permettant d’obtenir par la suite des modèles dérivés et améliorés pour des paires de langues arbitraires ? Nous proposons mRASP, une approche visant à pré-entraîner un modèle universel de traduction automatique neurale multilingue. L’idée centrale de mRASP réside dans une nouvelle technique appelée substitution aléatoire alignée, qui rapproche dans l’espace de représentation des mots et expressions ayant des sens similaires à travers plusieurs langues. Nous pré-entraînons un modèle mRASP sur 32 paires de langues simultanément, en n’utilisant que des jeux de données publics. Ce modèle est ensuite affiné sur des paires de langues spécifiques (tâches descendantes) afin d’obtenir des modèles de TA spécialisés. Nous menons des expériences étendues sur 42 directions de traduction dans des configurations variées, incluant des ressources faibles, moyennes, riches, ainsi que des transferts vers des paires de langues exotiques. Les résultats expérimentaux démontrent que mRASP atteint une amélioration significative des performances par rapport à un entraînement direct sur les paires cibles. Il s’agit pour la première fois de prouver que plusieurs paires de langues à faibles ressources peuvent être exploitées pour améliorer la traduction automatique dans des langues à ressources abondantes. De manière surprenante, mRASP parvient même à améliorer la qualité de traduction sur des langues exotiques n’ayant jamais été présentes dans le corpus de pré-entraînement. Le code, les données et les modèles pré-entraînés sont disponibles à l’adresse suivante : https://github.com/linzehui/mRASP.