Un Modèle d'Encodeur de Convolution pour la Traduction Automatique Neuronale

L'approche prédominante en traduction automatique neuronale repose sur l'utilisation de réseaux LSTM bidirectionnels pour encoder la phrase source. Dans cet article, nous présentons une architecture plus rapide et plus simple basée sur une succession de couches de convolution. Cela permet d'encoder l'ensemble de la phrase source simultanément, contrairement aux réseaux récurrents dont le calcul est limité par les dépendances temporelles. Sur la tâche de traduction anglais-roumain du WMT'16, nous obtenons des résultats compétitifs par rapport à l'état de l'art, et nous surpassons plusieurs résultats récemment publiés sur la tâche de traduction anglais-allemand du WMT'15. Nos modèles atteignent presque la même précision qu'un réseau LSTM très profond sur la tâche de traduction anglais-français du WMT'14. Notre encodeur convolutif accélère le décodage CPU d'au moins deux fois, tout en maintenant ou en améliorant la précision par rapport à un point de référence robuste avec des LSTM bidirectionnels.