il y a 10 jours

Attention Sparse Axée sur le Contenu avec Transformateurs de Routage Économiques

Aurko Roy, Mohammad Saffar, Ashish Vaswani, David Grangier

Résumé

L’attention auto-associative a récemment été adoptée pour un large éventail de problèmes de modélisation de séquences. Malgré son efficacité, l’attention auto-associative souffre de complexités computationnelles et mémoire quadratiques par rapport à la longueur de la séquence. Les approches réussies visant à réduire cette complexité se sont concentrées sur l’attention portée à des fenêtres glissantes locales ou à un petit ensemble de positions indépendant du contenu. Ce travail propose d’apprendre des motifs d’attention creux dynamiques, évitant ainsi d’allouer des ressources computationnelles et mémoire pour s’attarder sur des contenus sans lien avec la requête d’intérêt. Ce travail s’appuie sur deux directions de recherche : il combine la souplesse de modélisation des travaux antérieurs sur l’attention creuse basée sur le contenu avec les gains d’efficacité provenant des approches fondées sur l’attention creuse locale et temporelle. Notre modèle, le Routing Transformer, introduit à l’attention auto-associative un module de routage creux basé sur un k-means en ligne, tout en réduisant la complexité globale de l’attention de $O\left(n^2d\right)$ à $O\left(n^{1.5}d\right)$ pour une longueur de séquence $n$ et une dimension cachée $d$. Nous démontrons que notre modèle surpasser des modèles d’attention creuse comparables sur la modélisation du langage sur Wikitext-103 (15,8 contre 18,3 perplexité) ainsi que sur la génération d’images sur ImageNet-64 (3,43 contre 3,44 bits/dim), tout en utilisant moins de couches d’attention auto-associative. En outre, nous établissons un nouveau record d’état de l’art sur le jeu de données récemment publié PG-19, obtenant une perplexité de test de 33,2 avec un modèle Routing Transformer de 22 couches entraîné sur des séquences de longueur 8192.