HyperAIHyperAI

Command Palette

Search for a command to run...

Formation de grands modèles linguistiques optimisés pour le calcul

Résumé

Nous examinons la taille optimale du modèle et le nombre de jetons pour l'entraînement d'un modèle de langage transformer dans un budget informatique donné. Nous constatons que les modèles de langage actuels sont considérablement sous-entraînés, une conséquence du récent accent mis sur l'augmentation de la taille des modèles de langage tout en maintenant le volume de données d'entraînement constant. En entraînant plus de 400 modèles de langage, allant de 70 millions à plus de 16 milliards de paramètres, sur 5 à 500 milliards de jetons, nous découvrons que pour un entraînement informatiquement optimal, la taille du modèle et le nombre de jetons d'entraînement doivent être augmentés proportionnellement : chaque doublement de la taille du modèle doit être accompagné d'un doublement du nombre de jetons d'entraînement. Nous testons cette hypothèse en entraînant un modèle prédit comme étant informatiquement optimal, Chinchilla, qui utilise le même budget informatique que Gopher mais avec 70 milliards de paramètres et quatre fois plus de données. Chinchilla surpasse uniformément et significativement Gopher (280 milliards), GPT-3 (175 milliards), Jurassic-1 (178 milliards) et Megatron-Turing NLG (530 milliards) sur une large gamme de tâches d'évaluation en aval. Cela signifie également que Chinchilla utilise substantiellement moins d'informatique pour l'affinage et l'inférence, facilitant grandement son utilisation en aval. En particulier, Chinchilla atteint une précision moyenne record de 67,5 % sur le benchmark MMLU, soit une amélioration supérieure à 7 % par rapport à Gopher.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp