Traduction basée sur les phrases et traduction non supervisée neuronale

Les systèmes de traduction automatique atteignent des performances quasi-humaines pour certaines langues, mais leur efficacité dépend fortement de la disponibilité de grandes quantités de phrases parallèles, ce qui entrave leur application à la majorité des paires linguistiques. Cette étude explore comment apprendre à traduire en n'ayant accès qu'à de grands corpus monolingues dans chaque langue. Nous proposons deux variantes de modèles, un modèle neuronal et un modèle basé sur les phrases. Les deux versions profitent d'une initialisation soignée des paramètres, de l'effet de débruitage des modèles linguistiques et de la génération automatique de données parallèles par une traduction inverse itérative. Ces modèles sont nettement meilleurs que les méthodes décrites dans la littérature, tout en étant plus simples et ayant moins d'hyperparamètres. Sur les benchmarks largement utilisés WMT'14 anglais-français et WMT'16 allemand-anglais, nos modèles obtiennent respectivement 28,1 et 25,2 points BLEU sans utiliser une seule phrase parallèle, surpassant l'état de l'art de plus de 11 points BLEU. Pour les langues à ressources limitées comme l'anglais-ourdou et l'anglais-roumain, nos méthodes obtiennent même des résultats supérieurs aux approches semi-supervisées et supervisées qui exploitent la rareté des bitextes disponibles. Notre code pour la traduction automatique neuronale (NMT) et la traduction automatique basée sur les phrases (PBSMT) est publiquement disponible.