Tiefe rekurrente Modelle mit Fast-Forward-Verbindungen für die neuronale Maschinentranslation

Neuronale Maschinelle Übersetzung (NMT) strebt danach, Probleme der maschinellen Übersetzung (MT) mit Hilfe von neuronalen Netzen zu lösen und hat in den letzten Jahren vielversprechende Ergebnisse gezeigt. Dennoch sind die meisten existierenden NMT-Modelle flach und es besteht weiterhin eine Leistungsunterschied zwischen einem einzelnen NMT-Modell und dem besten konventionellen MT-System. In dieser Arbeit führen wir eine neue Art von linearen Verbindungen ein, die sogenannten Fast-Forward-Verbindungen, basierend auf tiefen Long Short-Term Memory (LSTM)-Netzwerken, sowie eine ineinandergreifende bidirektionale Architektur für das Stapeln der LSTM-Schichten. Fast-Forward-Verbindungen spielen eine wesentliche Rolle bei der Ausbreitung der Gradienten und beim Aufbau einer tiefen Topologie mit 16 Schichten. Bei der WMT'14 Englisch-nach-Französisch-Aufgabe erreichen wir einen BLEU-Wert von 37,7 mit einem einzelnen Aufmerksamkeitsmodell, was 6,2 BLEU-Punkte besser ist als das entsprechende einzelne flache Modell. Es ist das erste Mal, dass ein einzelnes NMT-Modell den Stand der Technik erreicht und das beste konventionelle Modell um 0,7 BLEU-Punkte übertrifft. Auch ohne die Verwendung eines Aufmerksamkeitsmechanismus können wir einen BLEU-Wert von 36,3 erzielen. Nach spezieller Behandlung unbekannter Wörter und Modellverknüpfung erhalten wir den bislang besten Score bei dieser Aufgabe mit einem BLEU-Wert von 40,4. Unsere Modelle wurden auch an der schwierigeren WMT'14 Englisch-nach-Deutsch-Aufgabe validiert.