Satzbausbasierte und neuronale unsupervisierte Maschinelle Übersetzung

Maschinelle Übersetzungssysteme erreichen bei einigen Sprachen nahezu menschliches Leistungsniveau, ihre Effektivität hängt jedoch stark von der Verfügbarkeit großer Mengen an parallelen Sätzen ab, was ihre Anwendbarkeit auf die Mehrheit der Sprachpaare behindert. Diese Arbeit untersucht, wie man übersetzen kann, wenn man nur über große monolinguale Korpora in jeder Sprache verfügt. Wir schlagen zwei Modellvarianten vor: ein neuronales und ein phrasenbasiertes Modell. Beide Versionen nutzen eine sorgfältige Initialisierung der Parameter, den Rauschunterdrückungseffekt von Sprachmodellen und die automatische Generierung paralleler Daten durch iterative Rückübersetzung (back-translation). Diese Modelle sind erheblich besser als Methoden aus der Literatur, sind dabei einfacher und haben weniger Hyperparameter. Bei den weit verbreiteten Benchmarks WMT'14 Englisch-Französisch und WMT'16 Deutsch-Englisch erzielen unsere Modelle jeweils 28,1 und 25,2 BLEU-Punkte ohne die Verwendung eines einzigen parallelen Satzes, wodurch sie den Stand der Technik um mehr als 11 BLEU-Punkte übertrumpfen. Bei sprachlichen Ressourcen mit geringer Verfügbarkeit wie Englisch-Urdu und Englisch-Rumänisch erreichen unsere Methoden sogar bessere Ergebnisse als halbüberwachte und überwachte Ansätze, die sich auf die wenigen verfügbaren Paralleltexte stützen. Unser Code für NMT (Neurale maschinelle Übersetzung) und PBSMT (Phrasenbasierte statistische maschinelle Übersetzung) ist öffentlich zugänglich.