Unüberwachte statistische Maschinelle Übersetzung

Während moderne maschinelle Übersetzung auf großen parallelen Korpora angewiesen war, ist es eine jüngere Forschungsrichtung gelungen, neuronale maschinelle Übersetzungssysteme (Neural Machine Translation, NMT) ausschließlich aus monolingualen Korpora zu trainieren (Artetxe et al., 2018c; Lample et al., 2018). Trotz des Potenzials dieser Methode für Settings mit geringen Ressourcen liegen bestehende Systeme weit hinter ihren überwachten Gegenstücken, was ihre praktische Relevanz einschränkt. In diesem Artikel schlagen wir einen alternativen Ansatz vor, der auf phrasenbasierter statistischer maschineller Übersetzung (Statistical Machine Translation, SMT) basiert und den Abstand zu überwachten Systemen erheblich verringert. Unsere Methode nutzt die modulare Architektur der SMT: Wir induzieren zunächst eine Phrastabelle aus monolingualen Korpora durch kreuzsprachliche Einbettungsmapping, kombinieren sie mit einem n-Gramm-Sprachmodell und optimieren die Hyperparameter durch eine unüberwachte Variante von MERT (Minimum Error Rate Training). Zudem verbessern iterative Rückübersetzungen die Ergebnisse weiter, wodurch beispielsweise 14,08 und 26,22 BLEU-Punkte im WMT 2014 Englisch-Deutsch und Englisch-Französisch erreicht werden. Dies stellt eine Verbesserung von mehr als 7-10 BLEU-Punkten gegenüber früheren unüberwachten Systemen dar und verringert den Abstand zu überwachten SMT-Systemen (Moses trainiert auf Europarl) auf 2-5 BLEU-Punkte. Unsere Implementierung ist unter https://github.com/artetxem/monoses verfügbar.