Une Approche Efficace pour la Traduction Automatique Non Supervisée

Bien que la traduction automatique ait traditionnellement reposé sur de grands volumes de corpus parallèles, une récente ligne de recherche a réussi à entraîner des systèmes de Traduction Automatique Neuronale (NMT) et de Traduction Automatique Statistique (SMT) en utilisant uniquement des corpus monolingues. Dans cet article, nous identifions et abordons plusieurs insuffisances des approches actuelles de SMT non supervisée en exploitant les informations sous-mot, en développant une méthode d'ajustement non supervisée théoriquement bien fondée, et en intégrant une procédure de raffinement conjoint. De plus, nous utilisons notre système SMT amélioré pour initialiser un modèle NMT dual, qui est ensuite affiné grâce à la rétrotraduction en temps réel. Ensemble, ces méthodes permettent d'obtenir d'importantes améliorations par rapport à l'état de l'art précédent en matière de traduction automatique non supervisée. Par exemple, nous obtenons 22,5 points BLEU pour la traduction anglais-allemand du WMT 2014, soit 5,5 points de plus que le meilleur système non supervisé précédemment connu et 0,5 point de plus que le gagnant partagé (supervisé) de la tâche commune en 2014.