HyperAIHyperAI
il y a 9 jours

Utilisation de DeepSpeed et Megatron pour former Megatron-Turing NLG 530B, un modèle linguistique générique à grande échelle

Shaden Smith, Mostofa Patwary, Brandon Norick, Patrick LeGresley, Samyam Rajbhandari, Jared Casper, Zhun Liu, Shrimai Prabhumoye, George Zerveas, Vijay Korthikanti, Elton Zhang, Rewon Child, Reza Yazdani Aminabadi, Julie Bernauer, Xia Song, Mohammad Shoeybi, Yuxiong He, Michael Houston, Saurabh Tiwary, Bryan Catanzaro
Utilisation de DeepSpeed et Megatron pour former Megatron-Turing NLG 530B, un modèle linguistique générique à grande échelle
Résumé

Les modèles linguistiques préentraînés à usage général peuvent atteindre des précisions de pointe dans divers domaines du traitement du langage naturel en s’adaptant aux tâches spécifiques grâce à des techniques de zéro-shot, de few-shot et d’ajustement fin (fine-tuning). En raison de leur succès, la taille de ces modèles a augmenté rapidement, nécessitant des matériels, logiciels et techniques algorithmiques de haute performance pour permettre leur entraînement. Suite à une collaboration entre Microsoft et NVIDIA, nous présentons ici les détails relatifs à l’entraînement du plus grand modèle linguistique basé sur le transformer monolithique à ce jour, le Megatron-Turing NLG 530B (MT-NLG), comportant 530 milliards de paramètres. Dans cet article, nous nous concentrons d’abord sur l’infrastructure ainsi que sur la méthodologie de parallélisme 3D utilisée pour entraîner ce modèle grâce à DeepSpeed et Megatron. Ensuite, nous détaillons le processus d’entraînement, la conception de notre corpus d’entraînement ainsi que nos techniques de nettoyage et de curation des données, que nous considérons comme un élément clé du succès du modèle. Enfin, nous discutons divers résultats d’évaluation, ainsi que d’autres observations intéressantes et nouvelles propriétés exhibées par le MT-NLG. Nous démontrons que le MT-NLG atteint des performances supérieures en apprentissage zéro-, un- et few-shot sur plusieurs benchmarks de traitement du langage naturel, établissant de nouveaux états de l’art. Nous pensons que nos contributions contribueront à l’avancement des infrastructures d’entraînement à grande échelle, des modèles linguistiques massifs et de la génération de langage naturel.

Utilisation de DeepSpeed et Megatron pour former Megatron-Turing NLG 530B, un modèle linguistique générique à grande échelle | Articles de recherche récents | HyperAI