vor 2 Monaten

Selbstaufmerksamkeit mit relativen Positionsdarstellungen

Peter Shaw; Jakob Uszkoreit; Ashish Vaswani

Abstract

Vaswani et al. (2017) stellten den Transformer vor, der ausschließlich auf einem Aufmerksamkeitsmechanismus basiert und state-of-the-art-Ergebnisse bei der maschinellen Übersetzung erzielt. Im Gegensatz zu rekurrenten und konvolutionellen neuronalen Netzen modelliert es in seiner Struktur weder explizit relative noch absolute Positionsinformationen. Stattdessen erfordert es das Hinzufügen von Repräsentationen absoluter Positionen zu seinen Eingaben. In dieser Arbeit präsentieren wir einen alternativen Ansatz, der den Selbst-Aufmerksamkeitsmechanismus erweitert, um effizient Repräsentationen relativer Positionen oder Abstände zwischen Sequenzelementen zu berücksichtigen. Bei den Übersetzungsaufgaben vom WMT 2014 Englisch-Deutsch und Englisch-Französisch führt dieser Ansatz jeweils zu Verbesserungen von 1,3 BLEU-Punkten und 0,3 BLEU-Punkten im Vergleich zu absoluten Positionsinformationen. Bemerkenswerterweise beobachten wir, dass die Kombination von relativen und absoluten Positionsinformationen keine weiteren Verbesserungen der Übersetzungsqualität bringt. Wir beschreiben eine effiziente Implementierung unserer Methode und stellen sie als ein Beispiel für relationssensible Selbst-Aufmerksamkeitsmechanismen dar, die sich auf beliebige grafikbeschriftete Eingaben verallgemeinern lassen.