Achtung ist alles, was du brauchst.

Die vorherrschenden Modelle für Sequenztransduktion basieren auf komplexen rekurrenten oder Faltungsschicht-basierten neuronalen Netzen in einer Encoder-Decoder-Konfiguration. Die besten Modelle verbinden zudem den Encoder und den Decoder über ein Aufmerksamkeitsmechanismus. Wir schlagen eine neue einfache Netzwerkarchitektur vor, den Transformer, die ausschließlich auf Aufmerksamkeitsmechanismen basiert und vollständig auf rekurrente und faltungsbasierte Schichten verzichtet. Experimente mit zwei maschinellen ÜbersetzungsAufgaben zeigen, dass diese Modelle hinsichtlich der Qualität überlegen sind, während sie gleichzeitig besser parallelisierbar sind und erheblich weniger Trainingszeit benötigen. Unser Modell erreicht einen BLEU-Score von 28,4 bei der englisch-deutschen Übersetzungsaufgabe des WMT 2014, was eine Verbesserung um mehr als 2 BLEU gegenüber bisherigen besten Ergebnissen darstellt, einschließlich Ensemble-Methoden. Bei der englisch-französischen Übersetzungsaufgabe des WMT 2014 etabliert unser Modell nach einem Trainingsdauer von 3,5 Tagen auf acht GPUs einen neuen Stand der Technik für einzelne Modelle mit einem BLEU-Score von 41,8, was nur einen kleinen Bruchteil der Trainingskosten der besten Modelle aus der Literatur entspricht. Wir zeigen außerdem, dass der Transformer sich gut auf andere Aufgaben überträgt, indem wir es erfolgreich sowohl bei der englischen Konstituentenanalyse mit großen als auch mit begrenzten Trainingsdatensätzen anwenden.