Comprendre la rétrotraduction à grande échelle

Une méthode efficace pour améliorer la traduction automatique neuronale avec des données monolingues consiste à augmenter le corpus d'entraînement parallèle avec les rétrotraductions de phrases en langue cible. Cette étude élargit la compréhension de la rétrotraduction et examine plusieurs méthodes pour générer des phrases sources synthétiques. Nous constatons que, sauf dans les contextes à ressources limitées, les rétrotraductions obtenues par échantillonnage ou par des sorties de faisceau bruitées sont les plus efficaces. Notre analyse montre que l'échantillonnage ou les données synthétiques bruitées fournissent un signal d'entraînement beaucoup plus fort que les données générées par un faisceau ou une recherche gloutonne. Nous comparons également comment les données synthétiques se comparent aux véritables textes bilingues et étudions divers effets de domaine. Enfin, nous mettons à l'échelle notre méthode pour traiter des centaines de millions de phrases monolingues et atteignons un nouveau niveau d'état de l'art avec un score de 35 BLEU sur l'ensemble de test anglais-allemand du WMT'14.