il y a 6 mois

Michael Poli Stefano Massaroli Eric Nguyen Daniel Y. Fu Tri Dao Stephen Baccus Yoshua Bengio Stefano Ermon Christopher Ré

Résumé

Les avancées récentes en apprentissage profond ont largement reposé sur l’utilisation de grands modèles Transformers, en raison de leur capacité à apprendre à grande échelle. Toutefois, l’élément fondamental des Transformers, l’opérateur d’attention, présente une complexité quadratique en longueur de séquence, ce qui limite la quantité de contexte accessible. Les méthodes subquadratiques existantes basées sur des approximations à faible rang ou creuses doivent être combinées avec des couches d’attention denses pour atteindre les performances des Transformers, ce qui révèle un écart de capacité. Dans ce travail, nous proposons Hyena, un remplacement subquadratique direct de l’attention, construit par l’interleucement de convolutions longues à paramétrage implicite et de portes contrôlées par les données. Sur des tâches de rappel et de raisonnement impliquant des séquences de milliers à centaines de milliers de tokens, Hyena améliore l’exactitude de plus de 50 points par rapport aux opérateurs reposant sur des espaces d’état ainsi que d’autres méthodes implicites et explicites, tout en atteignant les performances des modèles basés sur l’attention. Nous établissons une nouvelle référence pour les architectures libres d’attention dense sur la modélisation linguistique sur des jeux de données standards (WikiText103 et The Pile), atteignant une qualité équivalente à celle des Transformers avec une réduction de 20 % de la puissance de calcul nécessaire pendant l’entraînement, pour une longueur de séquence de 2K. Les opérateurs Hyena sont deux fois plus rapides que l’attention hautement optimisée à une longueur de séquence de 8K, et 100 fois plus rapides à une longueur de séquence de 64K.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Transformer

LLM

Réseau De Neurones Convolutif

Approche/Framework

Michael Poli Stefano Massaroli Eric Nguyen Daniel Y. Fu Tri Dao Stephen Baccus Yoshua Bengio Stefano Ermon Christopher Ré

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Transformer

LLM

Réseau De Neurones Convolutif

Approche/Framework

Michael Poli Stefano Massaroli Eric Nguyen Daniel Y. Fu Tri Dao Stephen Baccus Yoshua Bengio Stefano Ermon Christopher Ré

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Hiérarchie des Hyènes : Vers des Modèles Linguistiques Convolutionnels Plus Élevés | Articles | HyperAI

Command Palette

Hiérarchie des Hyènes : Vers des Modèles Linguistiques Convolutionnels Plus Élevés

Michael Poli Stefano Massaroli Eric Nguyen Daniel Y. Fu Tri Dao Stephen Baccus Yoshua Bengio Stefano Ermon Christopher Ré

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Hiérarchie des Hyènes : Vers des Modèles Linguistiques Convolutionnels Plus Élevés

Michael Poli Stefano Massaroli Eric Nguyen Daniel Y. Fu Tri Dao Stephen Baccus Yoshua Bengio Stefano Ermon Christopher Ré

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Hiérarchie des Hyènes : Vers des Modèles Linguistiques Convolutionnels Plus Élevés

Michael Poli Stefano Massaroli Eric Nguyen Daniel Y. Fu Tri Dao Stephen Baccus Yoshua Bengio Stefano Ermon Christopher Ré

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters