9日前
DeepSpeedおよびMegatronを活用したMegatron-Turing NLG 530Bの訓練:大規模な生成型言語モデル
Shaden Smith, Mostofa Patwary, Brandon Norick, Patrick LeGresley, Samyam Rajbhandari, Jared Casper, Zhun Liu, Shrimai Prabhumoye, George Zerveas, Vijay Korthikanti, Elton Zhang, Rewon Child, Reza Yazdani Aminabadi, Julie Bernauer, Xia Song, Mohammad Shoeybi, Yuxiong He, Michael Houston, Saurabh Tiwary, Bryan Catanzaro

要約
事前学習された汎用言語モデルは、ゼロショット、フェイショット、ファインチューニングといった手法を用いて下流タスクに適応することで、さまざまな自然言語処理(NLP)分野で最先端の精度を達成できる。その成功に伴い、これらのモデルの規模は急速に拡大しており、大規模モデルの学習を可能にするために、高性能なハードウェア、ソフトウェア、およびアルゴリズム技術が不可欠となっている。マイクロソフトとNVIDIAの共同努力の結果として、5300億パラメータを有する最大規模のモノリシックTransformerベース言語モデルである「Megatron-Turing NLG 530B(MT-NLG)」の学習に関する詳細を提示する。本論文では、まずDeepSpeedとMegatronを活用してこのモデルを学習するために用いられたインフラ構成および3次元並列化手法に焦点を当てる。次に、学習プロセス、学習コーパスの設計、およびデータのキュレーション技術について詳述し、これらが本モデルの成功の鍵であると考えている。最後に、さまざまな評価結果およびMT-NLGが示す興味深い観察結果や新たな性質について議論する。我々は、MT-NLGが複数のNLPベンチマークにおいて、ゼロショット、ワンショット、フェイショット学習の精度で優れた性能を発揮し、新たな最先端の結果を確立することを示した。本研究の貢献が、大規模学習インフラ、大規模言語モデル、および自然言語生成技術のさらなる発展に寄与すると確信している。