il y a 9 jours

Combinateur : Transformateur à attention complète avec coût de calcul épars

Hongyu Ren, Hanjun Dai, Zihang Dai, Mengjiao Yang, Jure Leskovec, Dale Schuurmans, Bo Dai

Résumé

Les Transformers offrent une classe d'architectures expressives extrêmement efficaces pour la modélisation de séquences. Toutefois, la limitation majeure des Transformers réside dans leur complexité mémoire et temporelle quadratique $\mathcal{O}(L^2)$ par rapport à la longueur de la séquence dans les couches d'attention, ce qui limite leur application dans des séquences extrêmement longues. La plupart des approches existantes cherchent à réduire cette charge en exploitant des hypothèses de parcimonie ou de faible rang dans la matrice d'attention, mais au prix d'une perte d'expressivité. À la place, nous proposons Combiner, une méthode qui permet d'obtenir une attention complète dans chaque tête d'attention tout en préservant une complexité computationnelle et mémoire faible. L'idée centrale consiste à traiter le mécanisme d'attention auto-associative comme une espérance conditionnelle des embeddings à chaque position, et à approximer la distribution conditionnelle par une factorisation structurée. Chaque position peut ainsi s'attacher à toutes les autres, soit directement par attention, soit indirectement via une attention portant sur des abstractions — elles-mêmes des espérances conditionnelles des embeddings provenant de régions locales correspondantes. Nous montrons que la plupart des schémas d'attention parcimonieuse utilisés dans les Transformers parcimonieux peuvent inspirer la conception d'une telle factorisation permettant une attention complète, tout en garantissant une complexité sous-quadratique ($\mathcal{O}(L\log L)$ ou $\mathcal{O}(L\sqrt{L})$). Combiner est une substitution directe des couches d'attention dans les Transformers existants et peut être facilement implémenté dans les frameworks courants. Une évaluation expérimentale sur des tâches de séquences à la fois auto-régressives et bidirectionnelles démontre l'efficacité de cette approche, permettant d'atteindre des résultats de pointe sur plusieurs tâches de modélisation d'images et de texte.