vor 17 Tagen

Tag-less Back-Translation

Idris Abdulmumin, Bashir Shehu Galadanci, Aliyu Garba

Abstract

Eine effektive Methode zur Erzeugung einer großen Anzahl paralleler Sätze zur Training verbesserter neuronaler maschineller Übersetzungssysteme (NMT) besteht in der Verwendung von Rückübersetzungen (back-translation) monolingualer Daten auf der Zielsprachen-Seite. Die herkömmliche Back-Translation-Methode hat sich als ineffizient bei der Nutzung der verfügbaren großen Menge an bestehenden monolingualen Daten erwiesen, da Übersetzungsmodelle während des Trainings nicht in der Lage sind, zwischen echten und synthetischen parallelen Daten zu unterscheiden. Zur Lösung dieses Problems wurden Tags oder Gatter eingesetzt, um den Modellen die Unterscheidung zwischen synthetischen und authentischen Daten zu ermöglichen. Dies verbessert die herkömmliche Back-Translation und erlaubt zudem die Anwendung iterativer Back-Translation bei Sprachpaaren, die mit der herkömmlichen Methode schlecht abschneiden. In dieser Arbeit betrachten wir die Back-Translation als ein Domain-Adaptations-Problem und verzichten damit auf die explizite Verwendung von Tags. In dem vorgestellten Ansatz – tag-less back-translation – werden synthetische parallele Daten als außerhalb der Domäne (out-of-domain) und authentische parallele Daten als innerhalb der Domäne (in-domain) betrachtet. Durch Vor-Training und Feinabstimmung (fine-tuning) zeigt sich, dass das Übersetzungsmodell effizienter aus beiden Datensätzen während des Trainings lernen kann. Experimentelle Ergebnisse belegen, dass dieser Ansatz sowohl gegenüber der herkömmlichen als auch der getaggten Back-Translation bei der maschinellen Übersetzung von Englisch nach Vietnamesisch und Englisch nach Deutsch in niedrig ressourcenreichen Szenarien übertrifft.