HyperAIHyperAI

Command Palette

Search for a command to run...

Génération de séquences longues avec des Transformers creux

Rewon Child; Scott Gray; Alec Radford; Ilya Sutskever

Résumé

Les Transformers sont des modèles de séquence puissants, mais ils nécessitent un temps et une mémoire qui augmentent quadratiquement avec la longueur de la séquence. Dans cet article, nous introduisons des factorisations creuses de la matrice d'attention qui réduisent cette complexité à (O(n \sqrt{n})). Nous présentons également : a) une variation de l'architecture et de l'initialisation pour entraîner des réseaux plus profonds, b) le recalcul des matrices d'attention pour économiser de la mémoire, et c) des noyaux d'attention rapides pour l'entraînement. Nous appelons ces réseaux les Sparse Transformers (Transformers creux), et nous montrons qu'ils peuvent modéliser des séquences de plusieurs dizaines de milliers d'étapes temporelles en utilisant des centaines de couches. Nous utilisons la même architecture pour modéliser des images, du son et du texte à partir d'octets bruts, établissant un nouveau niveau de performance pour le modèle de densité d'Enwik8, CIFAR-10 et ImageNet-64. Nous générons des échantillons inconditionnels qui démontrent une cohérence globale et une grande diversité, et nous montrons qu'il est en principe possible d'utiliser l'auto-attention pour modéliser des séquences de longueur d'un million ou plus.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Génération de séquences longues avec des Transformers creux | Articles | HyperAI