HyperAIHyperAI

Command Palette

Search for a command to run...

Les Transformers hiérarchiques sont des modèles linguistiques plus efficaces

Piotr Nawrot Szymon Tworkowski Michał Tyrolski Łukasz Kaiser Yuhuai Wu Christian Szegedy Henryk Michalewski

Résumé

Les modèles de type Transformer obtiennent des résultats remarquables sur de nombreuses tâches de traitement du langage naturel et de modélisation de séquences. De façon remarquable, les Transformers sont capables de traiter des séquences longues, ce qui leur permet de produire des sorties longues et cohérentes : des paragraphes complets générés par GPT-3, ou des images bien structurées produites par DALL-E. Bien que ces grands modèles linguistiques soient impressionnants, ils sont également très inefficaces et coûteux, ce qui limite leurs applications et leur accessibilité. Nous postulons que la clé pour permettre aux Transformers de traiter efficacement des séquences longues réside dans une architecture hiérarchique explicite. Pour vérifier cette hypothèse, nous étudions tout d’abord différentes méthodes de sous-échantillonnage et de suréchantillonnage des activations au sein des Transformers afin de leur conférer une structure hiérarchique. En utilisant les couches de sous-échantillonnage et de suréchantillonnage les plus performantes, nous concevons Hourglass — un modèle linguistique Transformer hiérarchique. Hourglass améliore significativement la performance du modèle de base Transformer, pour une quantité de calcul équivalente, et parvient à atteindre les mêmes résultats qu’un Transformer classique de manière plus efficace. En particulier, Hourglass établit un nouveau record sur la tâche de génération d’images ImageNet32, et améliore l’efficacité du modélisation linguistique sur le benchmark enwik8 largement étudié.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp