Accélération du Neural Transformer grâce à un réseau d'attention moyenne

Avec des réseaux d'attention parallélisables, le Transformers neuronal est très rapide à entraîner. Cependant, en raison de l'architecture auto-régressive et de l'auto-attention dans le décodeur, la procédure de décodage devient lente. Pour atténuer ce problème, nous proposons un réseau d'attention moyenne comme alternative au réseau d'auto-attention dans le décodeur du Transformers neuronal. Le réseau d'attention moyenne se compose de deux couches : une couche moyenne qui modélise les dépendances des positions précédentes et une couche de porte (gating layer) empilée sur la couche moyenne pour améliorer l'expressivité du réseau d'attention proposé. Nous appliquons ce réseau à la partie décodeuse du Transformers neuronal afin de remplacer le modèle d'auto-attention cible original. Grâce à des astuces de masquage et à la programmation dynamique, notre modèle permet au Transformers neuronal de décoder des phrases plus de quatre fois plus rapidement que sa version originale, avec presque aucune perte en temps d'entraînement et en performance de traduction. Nous menons une série d'expériences sur les tâches de traduction WMT17, où, pour 6 paires linguistiques différentes, nous obtenons des accélérations robustes et cohérentes lors du décodage.