Effektive Ansätze für aufmerksamkeitsbasierte neuronale Maschinübersetzung

Ein Aufmerksamkeitsmechanismus wurde kürzlich zur Verbesserung der neuronalen maschinellen Übersetzung (NMT) eingesetzt, indem er sich selektiv auf Teile des Quellsatzes während der Übersetzung konzentriert. Allerdings gab es bisher wenig Arbeiten, die nützliche Architekturen für aufmerksamkeitsbasierte NMT erforschen. In dieser Arbeit werden zwei einfache und effektive Klassen von Aufmerksamkeitsmechanismen untersucht: ein globales Verfahren, das sich stets auf alle Quellwörter konzentriert, und ein lokales Verfahren, das sich jeweils nur auf einen Teil der Quellwörter fokussiert. Wir zeigen die Effektivität beider Ansätze bei den ÜbersetzungsAufgaben des WMT zwischen Englisch und Deutsch in beiden Richtungen. Mit lokaler Aufmerksamkeit erreichen wir eine signifikante Steigerung um 5,0 BLEU-Punkte im Vergleich zu nicht-aufmerksamkeitssystemen, die bereits bekannte Techniken wie Dropout integrieren. Unser Ensemble-Modell, das verschiedene Aufmerksamkeitsarchitekturen verwendet, hat mit 25,9 BLEU-Punkten ein neues Stand-of-the-Art-Ergebnis im WMT'15 Englisch-Deutsch-ÜbersetzungsTask erzielt, was eine Verbesserung um 1,0 BLEU-Punkt gegenüber dem bisher besten System darstellt, das sowohl NMT als auch einen n-Gramm-Reranker nutzt.