HyperAIHyperAI
il y a 9 jours

Transformateur Long-Short : Transformateurs efficaces pour le langage et la vision

Chen Zhu, Wei Ping, Chaowei Xiao, Mohammad Shoeybi, Tom Goldstein, Anima Anandkumar, Bryan Catanzaro
Transformateur Long-Short : Transformateurs efficaces pour le langage et la vision
Résumé

Les Transformers ont connu un succès tant dans les domaines du langage que de la vision. Toutefois, leur mise à l’échelle pour des séquences longues — telles que des documents longs ou des images à haute résolution — reste prohibitivement coûteuse, en raison de la complexité quadratique en temps et en mémoire du mécanisme d’attention auto-associative par rapport à la longueur de la séquence d’entrée. Dans cet article, nous proposons Long-Short Transformer (Transformer-LS), un mécanisme d’attention auto-associative efficace pour modéliser des séquences longues avec une complexité linéaire, tant pour les tâches linguistiques que visuelles. Ce modèle combine une nouvelle attention à longue portée basée sur une projection dynamique, permettant de capturer des corrélations à distance, avec une attention à court terme capable de saisir des corrélations locales fines. Nous introduisons également une stratégie de normalisation dualisée afin de pallier le déséquilibre d’échelle entre les deux mécanismes d’attention. Transformer-LS peut être appliqué aussi bien aux modèles autoregressifs qu’aux modèles bidirectionnels, sans ajouter de complexité. Notre méthode surpasse les modèles de pointe sur plusieurs tâches dans les domaines du langage et de la vision, notamment sur le benchmark Long Range Arena, la modélisation autoregressive du langage et la classification d’ImageNet. Par exemple, Transformer-LS atteint un score de 0,97 BPC (bits per character) sur enwik8, en utilisant la moitié du nombre de paramètres par rapport à la méthode précédente, tout en étant plus rapide et capable de traiter des séquences jusqu’à trois fois plus longues que sa version à attention complète, sur le même matériel. Sur ImageNet, il obtient des résultats de pointe (par exemple, un modèle de taille modérée de 55,8 millions de paramètres, entraîné uniquement sur ImageNet-1K à 224×224, atteint une précision Top-1 de 84,1 %), tout en offrant une meilleure scalabilité pour les images à haute résolution. Le code source et les modèles sont disponibles à l’adresse suivante : https://github.com/NVIDIA/transformer-ls.