Das Verstehen von Rückübersetzung im großen Maßstab

Eine effektive Methode zur Verbesserung der neuronalen maschinellen Übersetzung durch mono-linguale Daten besteht darin, das parallele Trainingskorpus mit Rückübersetzungen von Zielsprachensätzen zu erweitern. Diese Arbeit erweitert das Verständnis von Rückübersetzungen und untersucht verschiedene Methoden zur Generierung synthetischer Quellsätze. Wir stellen fest, dass in allen Fällen außer bei ressourcenarmen Einstellungen Rückübersetzungen, die durch Sampling oder gestörte Strahl-Ausgaben (noised beam outputs) erzeugt werden, am wirksamsten sind. Unsere Analyse zeigt, dass Sampling oder gestörte synthetische Daten ein viel stärkeres Trainingsignal liefern als Daten, die durch Strahl- oder gierigen Suchverfahren (beam or greedy search) generiert werden. Wir vergleichen auch, wie synthetische Daten sich gegenüber echten bitextuellen Daten verhalten und untersuchen verschiedene Domänenwirkungen. Schließlich skalieren wir auf Hunderte von Millionen mono-lingualer Sätze und erreichen einen neuen Stand der Technik von 35 BLEU auf dem WMT'14 Englisch-Deutsch Testset.