il y a 9 jours

Lorsque l'Attention rencontre la Répétition Rapide : Entraînement de Modèles de Langage avec une Consommation Réduite de Calcul

Tao Lei

Résumé

Les grands modèles linguistiques deviennent de plus en plus difficiles à entraîner en raison de l’augmentation du temps et du coût computationnels. Dans ce travail, nous présentons SRU++, une architecture hautement efficace qui combine récurrence rapide et attention pour la modélisation de séquences. SRU++ présente une forte capacité de modélisation ainsi qu’une efficacité d’entraînement remarquable. Sur des tâches standard de modélisation linguistique telles que les jeux de données Enwik8, Wiki-103 et Billion Word, notre modèle obtient des résultats supérieurs en termes de bits-par-caractère et de perplexité, tout en nécessitant 3 à 10 fois moins de coût d’entraînement que les modèles Transformer les plus performants. Par exemple, notre modèle atteint un résultat de pointe sur le jeu de données Enwik8 après seulement 1,6 jour d’entraînement sur une machine équipée de 8 GPU. Nous montrons également que SRU++ nécessite une attention minimale pour atteindre des performances proches de l’état de l’art. Nos résultats suggèrent que l’exploitation conjointe de la récurrence rapide et d’une attention réduite constitue une voie prometteuse pour accélérer à la fois l’entraînement et l’inférence des modèles.