vor 9 Tagen

Verwendung von DeepSpeed und Megatron zur Trainierung von Megatron-Turing NLG 530B, einem großskaligen generativen Sprachmodell

Shaden Smith, Mostofa Patwary, Brandon Norick, Patrick LeGresley, Samyam Rajbhandari, Jared Casper, Zhun Liu, Shrimai Prabhumoye, George Zerveas, Vijay Korthikanti, Elton Zhang, Rewon Child, Reza Yazdani Aminabadi, Julie Bernauer, Xia Song, Mohammad Shoeybi, Yuxiong He, Michael Houston, Saurabh Tiwary, Bryan Catanzaro

Details der Forschungsarbeit anzeigen

Verwendung von DeepSpeed und Megatron zur Trainierung von Megatron-Turing NLG 530B, einem großskaligen generativen Sprachmodell

Abstract

Vortrainierte, allgemeinzweckorientierte Sprachmodelle können durch Anpassung an nachgeschaltete Aufgaben mittels Zero-Shot-, Few-Shot- und Fine-Tuning-Techniken in verschiedenen Bereichen der natürlichen Sprachverarbeitung (NLP) Zustand der Kunst-Genauigkeiten erzielen. Aufgrund ihres Erfolgs ist die Größe dieser Modelle rasch angestiegen, was leistungsstarke Hardware, Software sowie algorithmische Techniken zur Trainingsmöglichkeit solch großer Modelle erfordert. Als Ergebnis einer gemeinsamen Anstrengung zwischen Microsoft und NVIDIA präsentieren wir detaillierte Informationen zum Training des größten monolithischen, auf Transformer-Architekturen basierenden Sprachmodells, des Megatron-Turing NLG 530B (MT-NLG), mit 530 Milliarden Parametern. In diesem Artikel konzentrieren wir uns zunächst auf die Infrastruktur sowie die 3D-Parallelisierungsmethode, die zur Trainingsdurchführung dieses Modells mit DeepSpeed und Megatron eingesetzt wurde. Anschließend beschreiben wir ausführlich den Trainingsprozess, die Gestaltung unseres Trainingskorpus sowie unsere Techniken zur Datenreinigung, die wir als einen entscheidenden Faktor für den Erfolg des Modells betrachten. Abschließend diskutieren wir verschiedene Evaluierungsergebnisse sowie weitere interessante Beobachtungen und neuartige Eigenschaften, die MT-NLG aufweist. Wir zeigen, dass MT-NLG auf mehreren NLP-Benchmark-Datensätzen überlegene Zero-, One- und Few-Shot-Lerngenauigkeiten erzielt und neue Zustand-der-Kunst-Ergebnisse etabliert. Wir sind überzeugt, dass unsere Beiträge die weitere Entwicklung skalierbarer Trainingsinfrastrukturen, großer Sprachmodelle und der natürlichen Sprachgenerierung voranbringen werden.