HyperAIHyperAI
vor 2 Monaten

Ein effektiver Ansatz für die unüberwachte maschinelle Übersetzung

Mikel Artetxe; Gorka Labaka; Eneko Agirre
Ein effektiver Ansatz für die unüberwachte maschinelle Übersetzung
Abstract

Während die maschinelle Übersetzung traditionell auf großen Mengen an parallelen Korpora basiert hat, ist es eine jüngere Forschungsrichtung gelungen, sowohl neuronale Maschinelle Übersetzungssysteme (Neural Machine Translation, NMT) als auch statistische Maschinelle Übersetzungssysteme (Statistical Machine Translation, SMT) ausschließlich mit mono-lingualen Korpora zu trainieren. In dieser Arbeit identifizieren und beheben wir mehrere Mängel der existierenden unüberwachten SMT-Ansätze, indem wir Unterwortinformationen ausnutzen, eine theoretisch fundierte unüberwachte Feinabstimmungsmethode entwickeln und einen gemeinsamen Verfeinerungsprozess integrieren. Darüber hinaus initialisieren wir ein duales NMT-Modell mit unserem verbesserten SMT-System und feinabstimmen es durch Echtzeit-Rückübersetzung (back-translation). Zusammen erzielen wir erhebliche Verbesserungen im Vergleich zum bisherigen Stand der Technik in der unüberwachten maschinellen Übersetzung. Zum Beispiel erhalten wir 22,5 BLEU-Punkte bei der englisch-deutschen WMT 2014, was 5,5 Punkte mehr als das bisher beste unüberwachte System und 0,5 Punkte mehr als der (überwachte) Gewinner des gemeinsamen Aufgabens im Jahr 2014 ist.

Ein effektiver Ansatz für die unüberwachte maschinelle Übersetzung | Neueste Forschungsarbeiten | HyperAI