Payer moins d'attention avec des convolutions légères et dynamiques

L'auto-attention est un mécanisme utile pour construire des modèles génératifs de langage et d'images. Elle détermine l'importance des éléments du contexte en les comparant à l'étape temporelle actuelle. Dans cet article, nous montrons qu'une convolution très légère peut rivaliser avec les meilleurs résultats d'auto-attention rapportés. Ensuite, nous introduisons les convolutions dynamiques, qui sont plus simples et plus efficaces que l'auto-attention. Nous prédisons des noyaux de convolution distincts uniquement en fonction de l'étape temporelle actuelle afin de déterminer l'importance des éléments du contexte. Le nombre d'opérations nécessaires pour cette approche augmente linéairement avec la longueur de l'entrée, tandis que l'auto-attention est quadratique. Des expériences menées sur des tâches de traduction automatique à grande échelle, de modélisation de langage et de résumé abstrait montrent que les convolutions dynamiques surpassent les modèles d'auto-attention robustes. Sur le jeu de test WMT'14 anglais-allemand, les convolutions dynamiques atteignent un nouveau niveau d'excellence avec un score BLEU de 29,7.