HyperAIHyperAI

Command Palette

Search for a command to run...

Attention Sparse Axée sur le Contenu avec Transformateurs de Routage Économiques

Aurko Roy Mohammad Saffar Ashish Vaswani David Grangier

Résumé

L’attention auto-associative a récemment été adoptée pour un large éventail de problèmes de modélisation de séquences. Malgré son efficacité, l’attention auto-associative souffre de complexités computationnelles et mémoire quadratiques par rapport à la longueur de la séquence. Les approches réussies visant à réduire cette complexité se sont concentrées sur l’attention portée à des fenêtres glissantes locales ou à un petit ensemble de positions indépendant du contenu. Ce travail propose d’apprendre des motifs d’attention creux dynamiques, évitant ainsi d’allouer des ressources computationnelles et mémoire pour s’attarder sur des contenus sans lien avec la requête d’intérêt. Ce travail s’appuie sur deux directions de recherche : il combine la souplesse de modélisation des travaux antérieurs sur l’attention creuse basée sur le contenu avec les gains d’efficacité provenant des approches fondées sur l’attention creuse locale et temporelle. Notre modèle, le Routing Transformer, introduit à l’attention auto-associative un module de routage creux basé sur un k-means en ligne, tout en réduisant la complexité globale de l’attention de O(n2d)O\left(n^2d\right)O(n2d) à O(n1.5d)O\left(n^{1.5}d\right)O(n1.5d) pour une longueur de séquence nnn et une dimension cachée ddd. Nous démontrons que notre modèle surpasser des modèles d’attention creuse comparables sur la modélisation du langage sur Wikitext-103 (15,8 contre 18,3 perplexité) ainsi que sur la génération d’images sur ImageNet-64 (3,43 contre 3,44 bits/dim), tout en utilisant moins de couches d’attention auto-associative. En outre, nous établissons un nouveau record d’état de l’art sur le jeu de données récemment publié PG-19, obtenant une perplexité de test de 33,2 avec un modèle Routing Transformer de 22 couches entraîné sur des séquences de longueur 8192.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Attention Sparse Axée sur le Contenu avec Transformateurs de Routage Économiques | Articles | HyperAI