HyperAIHyperAI
vor 2 Monaten

Unüberwachte neurale Maschinenübersetzung, initialisiert durch unüberwachte statistische Maschinenübersetzung

Benjamin Marie; Atsushi Fujita
Unüberwachte neurale Maschinenübersetzung, initialisiert durch unüberwachte statistische Maschinenübersetzung
Abstract

Kürzliche Arbeiten erzielten bemerkenswerte Ergebnisse bei der Ausbildung von neuronalen maschinellen Übersetzungssystemen (Neural Machine Translation, NMT) auf vollkommen unsupervisierter Basis, wobei neue und speziell entwickelte Architekturen ausschließlich auf mono-lingualen Korpora basieren. In dieser Arbeit schlagen wir vor, unsupervisierte neuronale maschinelle Übersetzung (Unsupervised Neural Machine Translation, UNMT) als NMT zu definieren, die mit der Überwachung synthetischer bilingualer Daten trainiert wird. Unser Ansatz ermöglicht es direkt, die für supervisierte NMT vorgeschlagenen Stand-of-the-Art-Architekturen zu verwenden, indem menschengemachte bilingualische Daten durch synthetische bilingualische Daten ersetzt werden, um das Training durchzuführen. Wir schlagen vor, das Training von UNMT mit synthetischen bilingualen Daten zu initialisieren, die durch unsupervisierte statistische maschinelle Übersetzung (Unsupervised Statistical Machine Translation, USMT) generiert wurden. Das UNMT-System wird dann inkrementell verbessert, indem Rückübersetzung (Back-Translation) angewendet wird. Unsere vorläufigen Experimente zeigen, dass unser Ansatz einen neuen Stand-of-the-Art für unsupervisierte maschinelle Übersetzung auf der WMT16 Deutsch--Englisch Nachrichtenübersetzungs-Aufgabe erreicht, sowohl in beide Übersetzungsrichtungen.