9 天前

使用DeepSpeed与Megatron训练Megatron-Turing NLG 530B：一个大规模生成式语言模型

Shaden Smith, Mostofa Patwary, Brandon Norick, Patrick LeGresley, Samyam Rajbhandari, Jared Casper, Zhun Liu, Shrimai Prabhumoye, George Zerveas, Vijay Korthikanti, Elton Zhang, Rewon Child, Reza Yazdani Aminabadi, Julie Bernauer, Xia Song, Mohammad Shoeybi, Yuxiong He, Michael Houston, Saurabh Tiwary, Bryan Catanzaro

查看论文详情

使用DeepSpeed与Megatron训练Megatron-Turing NLG 530B：一个大规模生成式语言模型

摘要

预训练的通用语言模型可通过零样本（zero-shot）、少样本（few-shot）以及微调（fine-tuning）等技术，适应下游任务，在多种自然语言处理（NLP）领域实现当前最优的准确率。由于其卓越性能，这类模型的规模迅速扩大，对高性能硬件、软件系统及算法技术提出了更高要求，以支撑大规模模型的训练。在微软（Microsoft）与英伟达（NVIDIA）的联合努力下，本文详细介绍了基于单体架构的Transformer语言模型——Megatron-Turing NLG 530B（MT-NLG）的训练过程，该模型拥有5300亿参数，是目前规模最大的单一模型之一。本文首先聚焦于支撑该模型训练的基础设施，以及结合DeepSpeed与Megatron框架所采用的三维并行（3D parallelism）方法论。随后，我们详述了模型的训练流程、训练语料库的设计方案以及数据清洗与筛选技术，我们认为这些数据处理策略是模型取得成功的关键因素之一。最后，本文探讨了多项评估结果，以及MT-NLG所展现出的若干有趣现象和新特性。实验结果表明，MT-NLG在多个NLP基准测试中均显著优于现有的零样本、单样本及少样本学习方法，取得了新的最先进（state-of-the-art）性能。我们相信，本研究在大规模训练基础设施、大规模语言模型构建以及自然语言生成技术等方面所做出的贡献，将有力推动相关领域的持续发展。