HyperAIHyperAI

Command Palette

Search for a command to run...

使用DeepSpeed与Megatron训练Megatron-Turing NLG 530B:一个大规模生成式语言模型

摘要

预训练的通用语言模型可通过零样本(zero-shot)、少样本(few-shot)以及微调(fine-tuning)等技术,适应下游任务,在多种自然语言处理(NLP)领域实现当前最优的准确率。由于其卓越性能,这类模型的规模迅速扩大,对高性能硬件、软件系统及算法技术提出了更高要求,以支撑大规模模型的训练。在微软(Microsoft)与英伟达(NVIDIA)的联合努力下,本文详细介绍了基于单体架构的Transformer语言模型——Megatron-Turing NLG 530B(MT-NLG)的训练过程,该模型拥有5300亿参数,是目前规模最大的单一模型之一。本文首先聚焦于支撑该模型训练的基础设施,以及结合DeepSpeed与Megatron框架所采用的三维并行(3D parallelism)方法论。随后,我们详述了模型的训练流程、训练语料库的设计方案以及数据清洗与筛选技术,我们认为这些数据处理策略是模型取得成功的关键因素之一。最后,本文探讨了多项评估结果,以及MT-NLG所展现出的若干有趣现象和新特性。实验结果表明,MT-NLG在多个NLP基准测试中均显著优于现有的零样本、单样本及少样本学习方法,取得了新的最先进(state-of-the-art)性能。我们相信,本研究在大规模训练基础设施、大规模语言模型构建以及自然语言生成技术等方面所做出的贡献,将有力推动相关领域的持续发展。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供