Traduction statistique automatique non supervisée

Bien que la traduction automatique moderne s'appuie sur de grands corpus parallèles, une récente série de travaux a réussi à entraîner des systèmes de Traduction Automatique Neurale (TAN) uniquement à partir de corpus monolingues (Artetxe et al., 2018c ; Lample et al., 2018). Malgré le potentiel de cette approche pour les configurations à ressources limitées, les systèmes existants sont encore largement en retard par rapport à leurs homologues supervisés, ce qui limite leur intérêt pratique. Dans cet article, nous proposons une approche alternative basée sur la Traduction Automatique Statistique (TAS) à base de phrases qui réduit considérablement l'écart avec les systèmes supervisés. Notre méthode tire parti de l'architecture modulaire de la TAS : nous générons d'abord une table de phrases à partir de corpus monolingues grâce aux cartographies d'embeddings interlinguistiques, puis nous la combinons avec un modèle de langage n-gramme, et nous affinons les hyperparamètres via une variante non supervisée du MERT (Minimum Error Rate Training). De plus, l'itération du backtranslation améliore davantage les résultats, atteignant par exemple 14,08 et 26,22 points BLEU dans le cadre du WMT 2014 anglais-allemand et anglais-français respectivement, soit une amélioration d'au moins 7-10 points BLEU par rapport aux systèmes non supervisés précédents, et réduisant l'écart avec la TAS supervisée (Moses entraîné sur Europarl) à seulement 2-5 points BLEU. Notre implémentation est disponible sur https://github.com/artetxem/monoses.