Un Transformer sans attention par produit scalaire

Nous introduisons le Dot Product Attention Free Transformer (DAFT), une variante efficace des Transformers [citep{transformer}], qui élimine le produit scalaire entre les vecteurs requête et clé dans l’attention auto-attention. L'idée centrale consiste à construire une carte d'attention décomposable pour chaque dimension respective des vecteurs requête, clé et valeur. Cette propriété de décomposabilité permet une implémentation où le tenseur d'attention n’est ni calculé ni stocké explicitement. Une couche DAFT présente une complexité mémoire linéaire par rapport à la taille du contexte et à la dimension des caractéristiques, ce qui la rend compatible avec des entrées et des modèles de grande taille. Nous introduisons également DAFT-conv, une variante du modèle qui exploite la localité et le partage de poids spatial tout en préservant une connectivité globale. Nous menons des expériences sur la classification ImageNet-1K, ainsi que sur CIFAR10 et Enwik8, deux tâches de modélisation autoregressive. Nos résultats montrent que DAFT atteint des performances compétitives sur tous les benchmarks, tout en offrant une excellente efficacité.