vor 3 Monaten

Ausnutzung ein- und mehrsprachiger Daten in großem Maßstab für neuronale Maschinenübersetzung

{Jian-Huang Lai, Tie-Yan Liu, Yiren Wang, Tao Qin, Lijun Wu, Yingce Xia}

Abstract

Obwohl zielseitige monolinguale Daten sich als äußerst nützlich zur Verbesserung der neuronalen Maschinübersetzung (kurz: NMT) mittels Back-Translation erwiesen haben, wurde die Nutzung von quelleseitiger monolingualer Daten bisher weniger untersucht. In dieser Arbeit untersuchen wir, wie sowohl quelleseitige als auch zielseitige monolinguale Daten für die NMT genutzt werden können, und stellen eine effektive Strategie vor, die beide Arten von Daten nutzt. Zunächst generieren wir synthetisches Bitext durch Übersetzen von monolingualen Daten aus beiden Domänen in die jeweils andere Domäne mithilfe von Modellen, die auf echtem Bitext vortrainiert wurden. Anschließend wird ein Modell auf einer verrauschten Version des verketteten synthetischen Bitexts trainiert, wobei jede Quellsequenz zufällig verfälscht wird. Schließlich wird das Modell auf dem echten Bitext und einer sauberen Variante einer Teilmenge des synthetischen Bitexts ohne Rauschen feinabgestimmt. Unser Ansatz erreicht state-of-the-art Ergebnisse bei den WMT16, WMT17, WMT18-Übersetzungen Englisch↔Deutsch sowie bei den WMT19-Übersetzungen Deutsch↔Französisch, was die Wirksamkeit unserer Methode belegt. Zudem führen wir eine umfassende Studie durch, um zu analysieren, wie jeder Teil des Pipelineschritts funktioniert.