HyperAIHyperAI
vor 2 Monaten

Unüberwachte neuronale Maschinenübersetzung

Mikel Artetxe; Gorka Labaka; Eneko Agirre; Kyunghyun Cho
Unüberwachte neuronale Maschinenübersetzung
Abstract

Trotz des kürzlichen Erfolgs von neuronalen Maschinentranslationssystemen (NMT) in Standard-Benchmarks stellt der Mangel an großen parallelen Korpora für viele Sprachpaare ein wesentliches praktisches Problem dar. Es wurden mehrere Vorschläge zur Linderung dieses Problems gemacht, wie zum Beispiel Triangulation und semi-überwachte Lernverfahren, die jedoch immer noch einen starken über-sprachlichen Signal bedingen. In dieser Arbeit schlagen wir eine Methode vor, die das Bedürfnis nach parallelen Daten vollständig eliminiert und ein NMT-System auf rein monolingualen Korpora in einem vollständig unüberwachten Modus trainiert. Unser Modell basiert auf jüngsten Arbeiten zu unüberwachten Einbettungsabbildungen und besteht aus einer leicht modifizierten Aufmerksamkeits-basierten Encoder-Decoder-Architektur, die allein mit monolingualen Korpora durch eine Kombination von Rauschunterdrückung (denoising) und Rückübersetzung (backtranslation) trainiert werden kann. Trotz der Einfachheit des Ansatzes erzielt unser System 15,56 und 10,21 BLEU-Punkte bei der Übersetzung von Französisch ins Englische und Deutsch ins Englische im WMT 2014. Das Modell kann auch von kleinen parallelen Korpora profitieren und erreicht 21,81 und 15,24 Punkte, wenn es mit 100.000 parallelen Sätzen kombiniert wird. Unsere Implementierung wird als Open-Source-Projekt veröffentlicht.