HyperAIHyperAI

Command Palette

Search for a command to run...

Transformateur Long-Short : Transformateurs efficaces pour le langage et la vision

Chen Zhu Wei Ping Chaowei Xiao Mohammad Shoeybi Tom Goldstein Anima Anandkumar Bryan Catanzaro

Résumé

Les Transformers ont connu un succès tant dans les domaines du langage que de la vision. Toutefois, leur mise à l’échelle pour des séquences longues — telles que des documents longs ou des images à haute résolution — reste prohibitivement coûteuse, en raison de la complexité quadratique en temps et en mémoire du mécanisme d’attention auto-associative par rapport à la longueur de la séquence d’entrée. Dans cet article, nous proposons Long-Short Transformer (Transformer-LS), un mécanisme d’attention auto-associative efficace pour modéliser des séquences longues avec une complexité linéaire, tant pour les tâches linguistiques que visuelles. Ce modèle combine une nouvelle attention à longue portée basée sur une projection dynamique, permettant de capturer des corrélations à distance, avec une attention à court terme capable de saisir des corrélations locales fines. Nous introduisons également une stratégie de normalisation dualisée afin de pallier le déséquilibre d’échelle entre les deux mécanismes d’attention. Transformer-LS peut être appliqué aussi bien aux modèles autoregressifs qu’aux modèles bidirectionnels, sans ajouter de complexité. Notre méthode surpasse les modèles de pointe sur plusieurs tâches dans les domaines du langage et de la vision, notamment sur le benchmark Long Range Arena, la modélisation autoregressive du langage et la classification d’ImageNet. Par exemple, Transformer-LS atteint un score de 0,97 BPC (bits per character) sur enwik8, en utilisant la moitié du nombre de paramètres par rapport à la méthode précédente, tout en étant plus rapide et capable de traiter des séquences jusqu’à trois fois plus longues que sa version à attention complète, sur le même matériel. Sur ImageNet, il obtient des résultats de pointe (par exemple, un modèle de taille modérée de 55,8 millions de paramètres, entraîné uniquement sur ImageNet-1K à 224×224, atteint une précision Top-1 de 84,1 %), tout en offrant une meilleure scalabilité pour les images à haute résolution. Le code source et les modèles sont disponibles à l’adresse suivante : https://github.com/NVIDIA/transformer-ls.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp