Faltungs-basiertes Sequenz-zu-Sequenz-Lernen

Der gängige Ansatz für das sequenzbasierte Lernen ordnet eine Eingabesequenz durch rekurrente Neuronale Netze einer Ausgabesequenz mit variabler Länge zu. Wir stellen eine Architektur vor, die ausschließlich auf konvolutionellen neuronalen Netzen basiert. Im Vergleich zu rekurrenten Modellen können Berechnungen über alle Elemente während des Trainings vollständig parallelisiert werden und die Optimierung ist einfacher, da die Anzahl der Nichtlinearitäten fest und unabhängig von der Eingabelänge ist. Die Verwendung von geregelten linearen Einheiten erleichtert die Gradientenfortpflanzung, und wir versehen jede Entschlüsselungsschicht (decoder layer) mit einem separaten Aufmerksamkeitsmodul (attention module). Wir übertreffen die Genauigkeit des tiefen LSTM-Setups von Wu et al. (2016) bei beiden Übersetzungen vom WMT'14 Englisch-Deutsch und WMT'14 Englisch-Französisch um ein Vielfaches, sowohl auf GPU als auch auf CPU.