HyperAIHyperAI

Command Palette

Search for a command to run...

Prêtez attention lorsque cela est nécessaire

Swetha Mandava Szymon Migacz Alex Fit Florea

Résumé

Les modèles basés sur Transformer sont composés de blocs feed-forward entrelacés — qui captent le sens du contenu — et de blocs d’attention auto-associative relativement plus coûteux — qui captent le sens du contexte. Dans ce papier, nous avons exploré les compromis et l’ordre de ces blocs afin d’améliorer l’architecture Transformer actuelle, et avons proposé le modèle PAR Transformer. Ce dernier nécessite 35 % de temps de calcul en moins que Transformer-XL, en remplaçant environ 63 % des blocs d’attention auto-associative par des blocs feed-forward, tout en maintenant le même niveau de perplexité sur le benchmark de modélisation linguistique WikiText-103. Nous avons également validé nos résultats sur les jeux de données text8 et enwiki8, ainsi que sur le modèle BERT.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp