HyperAIHyperAI
vor 2 Monaten

Das Beste von Beidem: Kombination jüngster Fortschritte im Bereich der neuronalen Maschinelle Übersetzung

Mia Xu Chen; Orhan Firat; Ankur Bapna; Melvin Johnson; Wolfgang Macherey; George Foster; Llion Jones; Niki Parmar; Mike Schuster; Zhifeng Chen; Yonghui Wu; Macduff Hughes
Das Beste von Beidem: Kombination jüngster Fortschritte im Bereich der neuronalen Maschinelle Übersetzung
Abstract

Im vergangenen Jahr wurden rasche Fortschritte in der sequenzbasierten Modellierung (sequence-to-sequence, seq2seq) für die maschinelle Übersetzung (Machine Translation, MT) beobachtet. Die klassischen RNN-basierten Ansätze zur maschinellen Übersetzung wurden zunächst von dem konvolutionellen seq2seq-Modell übertroffen, das anschließend wiederum vom neueren Transformer-Modell überflügelt wurde. Jeder dieser neuen Ansätze besteht aus einer grundlegenden Architektur, die von einer Reihe von Modellierungs- und Trainingsmethoden begleitet wird, die grundsätzlich auf andere seq2seq-Architekturen anwendbar sind. In dieser Arbeit untersuchen wir die neuen Architekturen und ihre dazugehörigen Techniken auf zwei Arten. Erstens identifizieren wir mehrere Schlüsseltechniken der Modellierung und des Trainings und wenden sie auf die RNN-Architektur an, was zu einem neuen RNMT+-Modell führt, das alle drei grundlegenden Architekturen bei den Benchmark-Aufgaben WMT'14 Englisch-Französisch und Englisch-Deutsch übertreffen kann. Zweitens analysieren wir die Eigenschaften jeder grundlegenden seq2seq-Architektur und entwickeln neue hybride Architekturen, die darauf abzielen, deren Stärken zu kombinieren. Unsere hybriden Modelle erzielen weitere Verbesserungen und übertreffen das RNMT+-Modell in beiden Benchmark-Datensätzen.