il y a 17 jours

Les Transformers hiérarchiques sont des modèles linguistiques plus efficaces

Piotr Nawrot, Szymon Tworkowski, Michał Tyrolski, Łukasz Kaiser, Yuhuai Wu, Christian Szegedy, Henryk Michalewski

Résumé

Les modèles de type Transformer obtiennent des résultats remarquables sur de nombreuses tâches de traitement du langage naturel et de modélisation de séquences. De façon remarquable, les Transformers sont capables de traiter des séquences longues, ce qui leur permet de produire des sorties longues et cohérentes : des paragraphes complets générés par GPT-3, ou des images bien structurées produites par DALL-E. Bien que ces grands modèles linguistiques soient impressionnants, ils sont également très inefficaces et coûteux, ce qui limite leurs applications et leur accessibilité. Nous postulons que la clé pour permettre aux Transformers de traiter efficacement des séquences longues réside dans une architecture hiérarchique explicite. Pour vérifier cette hypothèse, nous étudions tout d’abord différentes méthodes de sous-échantillonnage et de suréchantillonnage des activations au sein des Transformers afin de leur conférer une structure hiérarchique. En utilisant les couches de sous-échantillonnage et de suréchantillonnage les plus performantes, nous concevons Hourglass — un modèle linguistique Transformer hiérarchique. Hourglass améliore significativement la performance du modèle de base Transformer, pour une quantité de calcul équivalente, et parvient à atteindre les mêmes résultats qu’un Transformer classique de manière plus efficace. En particulier, Hourglass établit un nouveau record sur la tâche de génération d’images ImageNet32, et améliore l’efficacité du modélisation linguistique sur le benchmark enwik8 largement étudié.