HyperAIHyperAI

Command Palette

Search for a command to run...

Megatron-LM : Formation de modèles linguistiques à plusieurs milliards de paramètres en utilisant le parallélisme de modèle

Mohammad Shoeybi Mostofa Patwary Raul Puri Patrick LeGresley Jared Casper Bryan Catanzaro

Résumé

Des travaux récents en modélisation linguistique montrent que l'entraînement de grands modèles de transformateurs fait progresser l'état de l'art dans les applications de traitement du langage naturel (Natural Language Processing, NLP). Cependant, les modèles très volumineux peuvent être difficiles à entraîner en raison des contraintes mémoire. Dans ce travail, nous présentons nos techniques pour entraîner des modèles de transformateurs très volumineux et mettons en œuvre une approche simple et efficace de parallélisme inter-couche qui permet d'entraîner des modèles de transformateurs avec des milliards de paramètres. Notre approche ne nécessite pas un nouveau compilateur ou des modifications de bibliothèque, est orthogonale et complémentaire au parallélisme inter-couche, et peut être entièrement mise en œuvre par l'insertion de quelques opérations de communication dans le PyTorch natif. Nous illustrons cette approche en faisant converger des modèles basés sur des transformateurs jusqu'à 8,3 milliards de paramètres en utilisant 512 GPU. Nous maintenons 15,1 PetaFLOPs sur toute l'application avec une efficacité d'évolutivité de 76 % par rapport à une base solide sur un seul GPU qui maintient 39 TeraFLOPs, soit 30 % des FLOPs maximums. Pour démontrer que les grands modèles linguistiques peuvent encore faire progresser l'état de l'art (State of the Art, SOTA), nous entraînons un modèle linguistique de transformateur à 8,3 milliards de paramètres similaire à GPT-2 et un modèle à 3,9 milliards de paramètres similaire à BERT. Nous montrons que la prise en compte attentive du placement de la normalisation inter-couche dans les modèles similaires à BERT est cruciale pour atteindre une meilleure performance lorsque la taille du modèle augmente. En utilisant le modèle GPT-2, nous obtenons des résultats SOTA sur les jeux de données WikiText103 (10,8 contre une perplexité SOTA de 15,8) et LAMBADA (66,5 % contre une précision SOTA de 63,2 %). Notre modèle BERT obtient des résultats SOTA sur le jeu de données RACE (90,9 % contre une précision SOTA de 89,4 %).


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp