HyperAIHyperAI

Command Palette

Search for a command to run...

Aufmerksamkeit ist alles, was Sie brauchen

Zusammenfassung

Die dominierenden Architekturen für Sequenztransduktion basieren auf komplexen rekurrenten oder konvolutionellen neuronalen Netzwerken in einer Encoder-Decoder-Konfiguration. Die besten Ergebnisse erzielen Modelle zudem durch eine Aufmerksamkeitsmechanismus-Verbindung zwischen Encoder und Decoder. Wir stellen eine neue, einfache Netzwerkarchitektur vor, den Transformer, die ausschließlich auf Aufmerksamkeitsmechanismen basiert und vollständig auf Rekurrenz und Konvolutionen verzichtet. Experimente an zwei maschinellen Übersetzungs-Aufgaben zeigen, dass diese Modelle sowohl eine höhere Qualität erreichen als auch deutlich besser parallelisierbar sind und signifikant weniger Trainingszeit erfordern. Unser Modell erzielt auf der WMT 2014-Aufgabe Englisch–Deutsch eine BLEU-Score von 28,4 und übertrifft damit die bisher besten Ergebnisse, einschließlich Ensembles, um mehr als 2 BLEU. Auf der WMT 2014-Aufgabe Englisch–Französisch erreicht unser Modell nach einer Trainingsdauer von 3,5 Tagen auf acht GPUs einen neuen Einzelmodell-Spitzenwert von 41,8 BLEU, was nur einen kleinen Bruchteil der Trainingskosten der besten Modelle aus der Literatur ausmacht. Wir zeigen, dass der Transformer gut generalisiert, indem wir ihn erfolgreich sowohl mit großem als auch mit begrenztem Trainingsdatensatz auf die englische Constituency-Parsing-Aufgabe anwenden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp