vor 2 Monaten

Gemeinsame Quell-Ziel-Selbstaufmerksamkeit mit Lokalitätsrestriktionen

José A. R. Fonollosa; Noe Casas; Marta R. Costa-jussà

Abstract

Die vorherrschenden neuronalen Maschinentranslationsmodelle basieren auf der Encoder-Decoder-Struktur, und viele davon stützen sich auf ein unbeschränktes Rezeptivfeld über die Quell- und Zielsequenzen. In dieser Arbeit untersuchen wir eine neue Architektur, die mit beiden Konventionen bricht. Unsere vereinfachte Architektur besteht aus dem Decoder-Teil eines Transformer-Modells, das auf Selbst-Aufmerksamkeit (self-attention) basiert, jedoch mit Lokalitätsrestriktionen im Aufmerksamkeitsrezeptivfeld. Als Trainingsinput werden sowohl die Quell- als auch die Zielsätze dem Netzwerk zugeführt, das als Sprachmodell trainiert wird. Bei der Inferenz werden die Zieldtokens autoregressiv vorhergesagt, wobei die Quellsequenz als vorherige Tokens verwendet wird. Das vorgeschlagene Modell erreicht einen neuen Stand der Technik von 35,7 BLEU auf IWSLT'14 Deutsch-Englisch und entspricht den besten in der Literatur gemeldeten Ergebnissen bei den Übersetzungsbenchmarks WMT'14 Englisch-Deutsch und WMT'14 Englisch-Französisch.