HyperAIHyperAI

Command Palette

Search for a command to run...

Combinateur : Transformateur à attention complète avec coût de calcul épars

Hongyu Ren Hanjun Dai Zihang Dai Mengjiao Yang Jure Leskovec Dale Schuurmans Bo Dai

Résumé

Les Transformers offrent une classe d'architectures expressives extrêmement efficaces pour la modélisation de séquences. Toutefois, la limitation majeure des Transformers réside dans leur complexité mémoire et temporelle quadratique O(L2)\mathcal{O}(L^2)O(L2) par rapport à la longueur de la séquence dans les couches d'attention, ce qui limite leur application dans des séquences extrêmement longues. La plupart des approches existantes cherchent à réduire cette charge en exploitant des hypothèses de parcimonie ou de faible rang dans la matrice d'attention, mais au prix d'une perte d'expressivité. À la place, nous proposons Combiner, une méthode qui permet d'obtenir une attention complète dans chaque tête d'attention tout en préservant une complexité computationnelle et mémoire faible. L'idée centrale consiste à traiter le mécanisme d'attention auto-associative comme une espérance conditionnelle des embeddings à chaque position, et à approximer la distribution conditionnelle par une factorisation structurée. Chaque position peut ainsi s'attacher à toutes les autres, soit directement par attention, soit indirectement via une attention portant sur des abstractions — elles-mêmes des espérances conditionnelles des embeddings provenant de régions locales correspondantes. Nous montrons que la plupart des schémas d'attention parcimonieuse utilisés dans les Transformers parcimonieux peuvent inspirer la conception d'une telle factorisation permettant une attention complète, tout en garantissant une complexité sous-quadratique (O(LlogL)\mathcal{O}(L\log L)O(LlogL) ou O(LL)\mathcal{O}(L\sqrt{L})O(LL)). Combiner est une substitution directe des couches d'attention dans les Transformers existants et peut être facilement implémenté dans les frameworks courants. Une évaluation expérimentale sur des tâches de séquences à la fois auto-régressives et bidirectionnelles démontre l'efficacité de cette approche, permettant d'atteindre des résultats de pointe sur plusieurs tâches de modélisation d'images et de texte.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp