Traduction non supervisée utilisant uniquement des corpus monolingues

La traduction automatique a récemment obtenu des performances impressionnantes grâce aux progrès récents dans l'apprentissage profond et à la disponibilité de corpus parallèles à grande échelle. De nombreuses tentatives ont été faites pour étendre ces succès aux paires de langues à faibles ressources, nécessitant toutefois des dizaines de milliers de phrases parallèles. Dans cette étude, nous poussons cette direction de recherche à l'extrême et examinons s'il est possible d'apprendre à traduire même en l'absence de toute donnée parallèle. Nous proposons un modèle qui prend des phrases issues de corpus monolingues dans deux langues différentes et les projette dans le même espace latent. En apprenant à reconstruire dans les deux langues à partir de cet espace de caractéristiques partagé, le modèle acquiert effectivement une capacité de traduction sans utiliser aucune donnée étiquetée. Nous illustrons notre modèle sur deux jeux de données largement utilisés et deux paires de langues, rapportant des scores BLEU de 32,8 et 15,1 sur les jeux de données Multi30k et WMT anglais-français, sans utiliser une seule phrase parallèle lors de l'entraînement.