HyperAIHyperAI

Command Palette

Search for a command to run...

Un Transformer sans attention par produit scalaire

Joshua M. Susskind Ruixiang Zhang Hanlin Goh Chen Huang Nitish Srivastava Walter Talbott Shuangfei Zhai

Résumé

Nous introduisons le Dot Product Attention Free Transformer (DAFT), une variante efficace des Transformers [citep{transformer}], qui élimine le produit scalaire entre les vecteurs requête et clé dans l’attention auto-attention. L'idée centrale consiste à construire une carte d'attention décomposable pour chaque dimension respective des vecteurs requête, clé et valeur. Cette propriété de décomposabilité permet une implémentation où le tenseur d'attention n’est ni calculé ni stocké explicitement. Une couche DAFT présente une complexité mémoire linéaire par rapport à la taille du contexte et à la dimension des caractéristiques, ce qui la rend compatible avec des entrées et des modèles de grande taille. Nous introduisons également DAFT-conv, une variante du modèle qui exploite la localité et le partage de poids spatial tout en préservant une connectivité globale. Nous menons des expériences sur la classification ImageNet-1K, ainsi que sur CIFAR10 et Enwik8, deux tâches de modélisation autoregressive. Nos résultats montrent que DAFT atteint des performances compétitives sur tous les benchmarks, tout en offrant une excellente efficacité.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Un Transformer sans attention par produit scalaire | Articles | HyperAI