il y a 2 mois

Traduction neuronale en temps linéaire

Nal Kalchbrenner; Lasse Espeholt; Karen Simonyan; Aaron van den Oord; Alex Graves; Koray Kavukcuoglu

Résumé

Nous présentons un nouveau réseau neuronal pour le traitement de séquences. Le ByteNet est un réseau neuronal convolutif unidimensionnel composé de deux parties : l'une pour encoder la séquence source et l'autre pour décoder la séquence cible. Les deux parties du réseau sont connectées en empilant le décodeur sur l'encodeur tout en préservant la résolution temporelle des séquences. Pour aborder les longueurs différentes de la séquence source et de la séquence cible, nous introduisons un mécanisme efficace permettant au décodeur de se déplier dynamiquement sur la représentation de l'encodeur. Le ByteNet utilise le dilatage dans les couches convolutives pour augmenter son champ récepteur. Le réseau résultant possède deux propriétés fondamentales : il s'exécute en temps linéaire par rapport à la longueur des séquences et il évite le besoin d'une mémorisation excessive. Le décodeur ByteNet atteint des performances d'état de l'art en modélisation linguistique au niveau des caractères et surpass les meilleurs résultats précédents obtenus avec des réseaux récurrents. Le ByteNet obtient également des performances d'état de l'art en traduction machine au niveau caractère-à-caractère sur la tâche de traduction anglais-allemand du WMT, surpassant des modèles de traduction neuronaux comparables basés sur des réseaux récurrents avec poolage attentionnel et s'exécutant en temps quadratique. Nous constatons que la structure d'alignement latente contenue dans les représentations reflète l'alignement attendu entre les jetons (tokens).