HyperAIHyperAI
il y a 17 jours

Hiérarchie des Hyènes : Vers des Modèles Linguistiques Convolutionnels Plus Élevés

Michael Poli, Stefano Massaroli, Eric Nguyen, Daniel Y. Fu, Tri Dao, Stephen Baccus, Yoshua Bengio, Stefano Ermon, Christopher Ré
Hiérarchie des Hyènes : Vers des Modèles Linguistiques Convolutionnels Plus Élevés
Résumé

Les avancées récentes en apprentissage profond ont largement reposé sur l’utilisation de grands modèles Transformers, en raison de leur capacité à apprendre à grande échelle. Toutefois, l’élément fondamental des Transformers, l’opérateur d’attention, présente une complexité quadratique en longueur de séquence, ce qui limite la quantité de contexte accessible. Les méthodes subquadratiques existantes basées sur des approximations à faible rang ou creuses doivent être combinées avec des couches d’attention denses pour atteindre les performances des Transformers, ce qui révèle un écart de capacité. Dans ce travail, nous proposons Hyena, un remplacement subquadratique direct de l’attention, construit par l’interleucement de convolutions longues à paramétrage implicite et de portes contrôlées par les données. Sur des tâches de rappel et de raisonnement impliquant des séquences de milliers à centaines de milliers de tokens, Hyena améliore l’exactitude de plus de 50 points par rapport aux opérateurs reposant sur des espaces d’état ainsi que d’autres méthodes implicites et explicites, tout en atteignant les performances des modèles basés sur l’attention. Nous établissons une nouvelle référence pour les architectures libres d’attention dense sur la modélisation linguistique sur des jeux de données standards (WikiText103 et The Pile), atteignant une qualité équivalente à celle des Transformers avec une réduction de 20 % de la puissance de calcul nécessaire pendant l’entraînement, pour une longueur de séquence de 2K. Les opérateurs Hyena sont deux fois plus rapides que l’attention hautement optimisée à une longueur de séquence de 8K, et 100 fois plus rapides à une longueur de séquence de 64K.

Hiérarchie des Hyènes : Vers des Modèles Linguistiques Convolutionnels Plus Élevés | Articles de recherche récents | HyperAI