Command Palette
Search for a command to run...
使用DeepSpeed与Megatron训练Megatron-Turing NLG 530B:一个大规模生成式语言模型
使用DeepSpeed与Megatron训练Megatron-Turing NLG 530B:一个大规模生成式语言模型
摘要
预训练的通用语言模型可通过零样本(zero-shot)、少样本(few-shot)以及微调(fine-tuning)等技术,适应下游任务,在多种自然语言处理(NLP)领域实现当前最优的准确率。由于其卓越性能,这类模型的规模迅速扩大,对高性能硬件、软件系统及算法技术提出了更高要求,以支撑大规模模型的训练。在微软(Microsoft)与英伟达(NVIDIA)的联合努力下,本文详细介绍了基于单体架构的Transformer语言模型——Megatron-Turing NLG 530B(MT-NLG)的训练过程,该模型拥有5300亿参数,是目前规模最大的单一模型之一。本文首先聚焦于支撑该模型训练的基础设施,以及结合DeepSpeed与Megatron框架所采用的三维并行(3D parallelism)方法论。随后,我们详述了模型的训练流程、训练语料库的设计方案以及数据清洗与筛选技术,我们认为这些数据处理策略是模型取得成功的关键因素之一。最后,本文探讨了多项评估结果,以及MT-NLG所展现出的若干有趣现象和新特性。实验结果表明,MT-NLG在多个NLP基准测试中均显著优于现有的零样本、单样本及少样本学习方法,取得了新的最先进(state-of-the-art)性能。我们相信,本研究在大规模训练基础设施、大规模语言模型构建以及自然语言生成技术等方面所做出的贡献,将有力推动相关领域的持续发展。