HyperAIHyperAI
vor 2 Monaten

Neuronale Maschinelle Übersetzung von Seltenen Wörtern mit Subwörtereinheiten

Rico Sennrich; Barry Haddow; Alexandra Birch
Neuronale Maschinelle Übersetzung von Seltenen Wörtern mit Subwörtereinheiten
Abstract

Neuronale Maschinenübersetzung (NMT)-Modelle arbeiten in der Regel mit einem festen Wortschatz, aber die Übersetzung ist ein Problem mit offener Vokabularität. Frühere Arbeiten haben das Problem der Übersetzung von außerhalb des Wortschatzes stehenden Wörtern durch Rückgriff auf ein Wörterbuch angegangen. In dieser Arbeit stellen wir einen einfacheren und effektiveren Ansatz vor, der das NMT-Modell befähigt, offene Vokabularien zu übersetzen, indem seltene und unbekannte Wörter als Sequenzen von Subworteinheiten kodiert werden. Dies basiert auf der Intuition, dass verschiedene Wortklassen über kleinere Einheiten als Wörter übersetzt werden können, zum Beispiel Namen (durch Zeichenkopie oder Transliteration), Zusammensetzungen (durch kompositionelle Übersetzung) und Kognate und Lehnwörter (durch phonologische und morphologische Transformationen). Wir diskutieren die Eignung verschiedener Wortsegmentierungstechniken, darunter einfache Zeichenn-gramm-Modelle und eine Segmentierung basierend auf dem Byte-Pair-Encoding-Kompressionsalgorithmus, und zeigen empirisch, dass Subwortmodelle bei den ÜbersetzungsAufgaben des Workshops on Machine Translation (WMT) 15 für Englisch-Deutsch und Englisch-Russisch jeweils um 1,1 und 1,3 BLEU-Punkte besser abschneiden als ein Modell mit Rückgriff auf ein Wörterbuch.