HyperAIHyperAI

Command Palette

Search for a command to run...

Remédier à certaines limitations des Transformers grâce à une mémoire par retour d'information

Angela Fan Thibaut Lavril Edouard Grave Armand Joulin Sainbayar Sukhbaatar

Résumé

Les Transformers ont été efficacement appliqués aux tâches séquentielles auto-régressives, malgré leur nature de réseaux feedforward. Contrairement aux réseaux de neurones récurrents, les Transformers utilisent l’attention pour capturer les relations temporelles tout en traitant les tokens d’entrée en parallèle. Bien que cette parallélisation les rende computationnellement efficaces, elle limite leur capacité à exploiter pleinement la nature séquentielle des entrées. En effet, la représentation à une couche donnée ne peut accéder qu’aux représentations des couches inférieures, et non aux représentations de niveau supérieur déjà disponibles. Dans ce travail, nous proposons une architecture appelée Feedback Transformer, qui expose toutes les représentations antérieures à toutes les représentations futures, de sorte que la représentation la plus basse au moment courant soit formée à partir de la représentation abstraite de plus haut niveau issue du passé. Nous démontrons, sur diverses benchmarks en modélisation du langage, traduction automatique et apprentissage par renforcement, que cette augmentation de la capacité de représentation permet de concevoir des modèles peu profonds et compacts, capables d’atteindre des performances significativement supérieures à celles des Transformers comparables.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp