HyperAIHyperAI

Command Palette

Search for a command to run...

Lorsque l'Attention rencontre la Répétition Rapide : Entraînement de Modèles de Langage avec une Consommation Réduite de Calcul

Tao Lei

Résumé

Les grands modèles linguistiques deviennent de plus en plus difficiles à entraîner en raison de l’augmentation du temps et du coût computationnels. Dans ce travail, nous présentons SRU++, une architecture hautement efficace qui combine récurrence rapide et attention pour la modélisation de séquences. SRU++ présente une forte capacité de modélisation ainsi qu’une efficacité d’entraînement remarquable. Sur des tâches standard de modélisation linguistique telles que les jeux de données Enwik8, Wiki-103 et Billion Word, notre modèle obtient des résultats supérieurs en termes de bits-par-caractère et de perplexité, tout en nécessitant 3 à 10 fois moins de coût d’entraînement que les modèles Transformer les plus performants. Par exemple, notre modèle atteint un résultat de pointe sur le jeu de données Enwik8 après seulement 1,6 jour d’entraînement sur une machine équipée de 8 GPU. Nous montrons également que SRU++ nécessite une attention minimale pour atteindre des performances proches de l’état de l’art. Nos résultats suggèrent que l’exploitation conjointe de la récurrence rapide et d’une attention réduite constitue une voie prometteuse pour accélérer à la fois l’entraînement et l’inférence des modèles.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp