Apprentissage de séquences à séquences par convolution

L'approche prédominante pour l'apprentissage séquence à séquence consiste à mapper une séquence d'entrée à une séquence de sortie de longueur variable à travers des réseaux neuronaux récurrents. Nous présentons une architecture basée uniquement sur des réseaux neuronaux convolutifs. Par rapport aux modèles récurrents, les calculs sur tous les éléments peuvent être entièrement parallélisés lors de l'entraînement et l'optimisation est plus facile car le nombre de non-linéarités est fixe et indépendant de la longueur de l'entrée. Notre utilisation d'unités linéaires avec portes facilite la propagation du gradient, et nous équipons chaque couche du décodeur d'un module d'attention distinct. Nous surpassons la précision du modèle LSTM profond de Wu et al. (2016) dans les traductions WMT'14 anglais-allemand et WMT'14 anglais-français, avec une vitesse supérieure d'un ordre de grandeur, tant sur GPU que sur CPU.