Traduction neuronale non supervisée

Bien que les traductions neuronales automatiques (NMT) aient connu un succès récent dans des benchmarks standards, le manque de grands corpus parallèles pose un problème pratique majeur pour de nombreux couples de langues. Plusieurs propositions ont été faites pour atténuer ce problème, comme la triangulation et les techniques d'apprentissage semi-supervisé, mais elles nécessitent encore un signal interlinguistique fort. Dans cette étude, nous éliminons complètement la nécessité de données parallèles et proposons une nouvelle méthode pour entraîner un système NMT de manière entièrement non supervisée, en ne s'appuyant que sur des corpus monolingues. Notre modèle s'appuie sur les travaux récents sur les cartographies d'embeddings non supervisées et consiste en un modèle encodeur-décodeur à l'attention légèrement modifié qui peut être entraîné uniquement sur des corpus monolingues grâce à une combinaison d'apprentissage débruitant et de rétrotraduction. Malgré la simplicité de l'approche, notre système obtient 15,56 et 10,21 points BLEU dans les tâches de traduction français-anglais et allemand-anglais du WMT 2014. Le modèle peut également tirer profit de petits corpus parallèles, atteignant respectivement 21,81 et 15,24 points lorsqu'il est combiné avec 100 000 phrases parallèles. Notre implémentation est publiée sous forme de projet open source.