HyperAIHyperAI

Command Palette

Search for a command to run...

Payer moins d'attention avec des convolutions légères et dynamiques

Felix Wu Angela Fan Alexei Baevski Yann N. Dauphin Michael Auli

Résumé

L'auto-attention est un mécanisme utile pour construire des modèles génératifs de langage et d'images. Elle détermine l'importance des éléments du contexte en les comparant à l'étape temporelle actuelle. Dans cet article, nous montrons qu'une convolution très légère peut rivaliser avec les meilleurs résultats d'auto-attention rapportés. Ensuite, nous introduisons les convolutions dynamiques, qui sont plus simples et plus efficaces que l'auto-attention. Nous prédisons des noyaux de convolution distincts uniquement en fonction de l'étape temporelle actuelle afin de déterminer l'importance des éléments du contexte. Le nombre d'opérations nécessaires pour cette approche augmente linéairement avec la longueur de l'entrée, tandis que l'auto-attention est quadratique. Des expériences menées sur des tâches de traduction automatique à grande échelle, de modélisation de langage et de résumé abstrait montrent que les convolutions dynamiques surpassent les modèles d'auto-attention robustes. Sur le jeu de test WMT'14 anglais-allemand, les convolutions dynamiques atteignent un nouveau niveau d'excellence avec un score BLEU de 29,7.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp