HyperAIHyperAI

Command Palette

Search for a command to run...

Faltungs-basiertes Sequenz-zu-Sequenz-Lernen

Jonas Gehring; Michael Auli; David Grangier; Denis Yarats; Yann N. Dauphin

Zusammenfassung

Der gängige Ansatz für das sequenzbasierte Lernen ordnet eine Eingabesequenz durch rekurrente Neuronale Netze einer Ausgabesequenz mit variabler Länge zu. Wir stellen eine Architektur vor, die ausschließlich auf konvolutionellen neuronalen Netzen basiert. Im Vergleich zu rekurrenten Modellen können Berechnungen über alle Elemente während des Trainings vollständig parallelisiert werden und die Optimierung ist einfacher, da die Anzahl der Nichtlinearitäten fest und unabhängig von der Eingabelänge ist. Die Verwendung von geregelten linearen Einheiten erleichtert die Gradientenfortpflanzung, und wir versehen jede Entschlüsselungsschicht (decoder layer) mit einem separaten Aufmerksamkeitsmodul (attention module). Wir übertreffen die Genauigkeit des tiefen LSTM-Setups von Wu et al. (2016) bei beiden Übersetzungen vom WMT'14 Englisch-Deutsch und WMT'14 Englisch-Französisch um ein Vielfaches, sowohl auf GPU als auch auf CPU.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Faltungs-basiertes Sequenz-zu-Sequenz-Lernen | Paper | HyperAI