Command Palette
Search for a command to run...
Aufmerksamkeit ist alles, was Sie brauchen
Aufmerksamkeit ist alles, was Sie brauchen
Zusammenfassung
Die dominierenden Architekturen für Sequenztransduktion basieren auf komplexen rekurrenten oder konvolutionellen neuronalen Netzwerken in einer Encoder-Decoder-Konfiguration. Die besten Ergebnisse erzielen Modelle zudem durch eine Aufmerksamkeitsmechanismus-Verbindung zwischen Encoder und Decoder. Wir stellen eine neue, einfache Netzwerkarchitektur vor, den Transformer, die ausschließlich auf Aufmerksamkeitsmechanismen basiert und vollständig auf Rekurrenz und Konvolutionen verzichtet. Experimente an zwei maschinellen Übersetzungs-Aufgaben zeigen, dass diese Modelle sowohl eine höhere Qualität erreichen als auch deutlich besser parallelisierbar sind und signifikant weniger Trainingszeit erfordern. Unser Modell erzielt auf der WMT 2014-Aufgabe Englisch–Deutsch eine BLEU-Score von 28,4 und übertrifft damit die bisher besten Ergebnisse, einschließlich Ensembles, um mehr als 2 BLEU. Auf der WMT 2014-Aufgabe Englisch–Französisch erreicht unser Modell nach einer Trainingsdauer von 3,5 Tagen auf acht GPUs einen neuen Einzelmodell-Spitzenwert von 41,8 BLEU, was nur einen kleinen Bruchteil der Trainingskosten der besten Modelle aus der Literatur ausmacht. Wir zeigen, dass der Transformer gut generalisiert, indem wir ihn erfolgreich sowohl mit großem als auch mit begrenztem Trainingsdatensatz auf die englische Constituency-Parsing-Aufgabe anwenden.