il y a 2 mois

Dépasser les Lois d'Échelle avec 0,1 % de Calcul Supplémentaire

Yi Tay; Jason Wei; Hyung Won Chung; Vinh Q. Tran; David R. So; Siamak Shakeri; Xavier Garcia; Huaixiu Steven Zheng; Jinfeng Rao; Aakanksha Chowdhery; Denny Zhou; Donald Metzler; Slav Petrov; Neil Houlsby; Quoc V. Le; Mostafa Dehghani

Voir les détails de l'article

Dépasser les Lois d'Échelle avec 0,1 % de Calcul Supplémentaire

Résumé

L'augmentation de la taille des modèles linguistiques améliore les performances mais entraîne des coûts informatiques significatifs. Cet article propose UL2R, une méthode qui améliore considérablement les modèles linguistiques existants et leurs courbes d'évolution avec un surcoût de calcul relativement minime. L'idée centrale est de poursuivre l'entraînement d'un modèle linguistique de grande envergure à l'état de l'art (par exemple, PaLM) sur quelques étapes supplémentaires avec l'objectif mixte de débruitage d'UL2. Nous montrons que, avec des coûts informatiques presque négligeables et sans nouvelles sources de données, nous sommes capables d'améliorer substantiellement les propriétés d'évolution des grands modèles linguistiques sur les métriques en aval. Dans cet article, nous continuons l'entraînement du modèle PaLM avec UL2R, introduisant une nouvelle série de modèles aux échelles de 8 milliards (8B), 62 milliards (62B) et 540 milliards (540B) de paramètres que nous appelons U-PaLM.Impressivement, à l'échelle de 540 milliards de paramètres, nous démontrons une économie d'environ 2 fois en termes de ressources computationnelles où U-PaLM atteint les mêmes performances que le modèle final PaLM 540B avec environ la moitié de son budget informatique (c'est-à-dire une économie d'environ 4,4 millions d'heures TPUv4). Nous montrons également que cette courbe d'évolution améliorée conduit à des « capacités émergentes » sur des tâches complexes du BIG-Bench -- par exemple, U-PaLM se distingue nettement mieux que PaLM sur certaines tâches ou montre une meilleure qualité à une échelle beaucoup plus petite (62B au lieu de 540B).Dans l'ensemble, nous démontrons que U-PaLM surpasses PaLM dans de nombreux scénarios à faible nombre d'exemples, c'est-à-dire pour les tâches en traitement du langage naturel anglais (par exemple, raisonnement communautaire, réponse aux questions), les tâches de raisonnement impliquant une chaîne de pensée (par exemple, GSM8K), les tâches multilingues (MGSM, TydiQA), MMLU et les tâches complexes du BIG-Bench. Enfin, nous fournissons des exemples qualitatifs illustrant les nouvelles capacités de U-PaLM pour le remplissage simple et multiple.