Formation de grands modèles linguistiques optimisés pour le calcul

Nous examinons la taille optimale du modèle et le nombre de jetons pour l'entraînement d'un modèle de langage transformer dans un budget informatique donné. Nous constatons que les modèles de langage actuels sont considérablement sous-entraînés, une conséquence du récent accent mis sur l'augmentation de la taille des modèles de langage tout en maintenant le volume de données d'entraînement constant. En entraînant plus de 400 modèles de langage, allant de 70 millions à plus de 16 milliards de paramètres, sur 5 à 500 milliards de jetons, nous découvrons que pour un entraînement informatiquement optimal, la taille du modèle et le nombre de jetons d'entraînement doivent être augmentés proportionnellement : chaque doublement de la taille du modèle doit être accompagné d'un doublement du nombre de jetons d'entraînement. Nous testons cette hypothèse en entraînant un modèle prédit comme étant informatiquement optimal, Chinchilla, qui utilise le même budget informatique que Gopher mais avec 70 milliards de paramètres et quatre fois plus de données. Chinchilla surpasse uniformément et significativement Gopher (280 milliards), GPT-3 (175 milliards), Jurassic-1 (178 milliards) et Megatron-Turing NLG (530 milliards) sur une large gamme de tâches d'évaluation en aval. Cela signifie également que Chinchilla utilise substantiellement moins d'informatique pour l'affinage et l'inférence, facilitant grandement son utilisation en aval. En particulier, Chinchilla atteint une précision moyenne record de 67,5 % sur le benchmark MMLU, soit une amélioration supérieure à 7 % par rapport à Gopher.