HyperAIHyperAI

Command Palette

Search for a command to run...

Tag-less Back-Translation

Idris Abdulmumin Bashir Shehu Galadanci Aliyu Garba

Zusammenfassung

Eine effektive Methode zur Erzeugung einer großen Anzahl paralleler Sätze zur Training verbesserter neuronaler maschineller Übersetzungssysteme (NMT) besteht in der Verwendung von Rückübersetzungen (back-translation) monolingualer Daten auf der Zielsprachen-Seite. Die herkömmliche Back-Translation-Methode hat sich als ineffizient bei der Nutzung der verfügbaren großen Menge an bestehenden monolingualen Daten erwiesen, da Übersetzungsmodelle während des Trainings nicht in der Lage sind, zwischen echten und synthetischen parallelen Daten zu unterscheiden. Zur Lösung dieses Problems wurden Tags oder Gatter eingesetzt, um den Modellen die Unterscheidung zwischen synthetischen und authentischen Daten zu ermöglichen. Dies verbessert die herkömmliche Back-Translation und erlaubt zudem die Anwendung iterativer Back-Translation bei Sprachpaaren, die mit der herkömmlichen Methode schlecht abschneiden. In dieser Arbeit betrachten wir die Back-Translation als ein Domain-Adaptations-Problem und verzichten damit auf die explizite Verwendung von Tags. In dem vorgestellten Ansatz – tag-less back-translation – werden synthetische parallele Daten als außerhalb der Domäne (out-of-domain) und authentische parallele Daten als innerhalb der Domäne (in-domain) betrachtet. Durch Vor-Training und Feinabstimmung (fine-tuning) zeigt sich, dass das Übersetzungsmodell effizienter aus beiden Datensätzen während des Trainings lernen kann. Experimentelle Ergebnisse belegen, dass dieser Ansatz sowohl gegenüber der herkömmlichen als auch der getaggten Back-Translation bei der maschinellen Übersetzung von Englisch nach Vietnamesisch und Englisch nach Deutsch in niedrig ressourcenreichen Szenarien übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp