9 天前

GLaM:基于专家混合的高效语言模型扩展

Nan Du, Yanping Huang, Andrew M. Dai, Simon Tong, Dmitry Lepikhin, Yuanzhong Xu, Maxim Krikun, Yanqi Zhou, Adams Wei Yu, Orhan Firat, Barret Zoph, Liam Fedus, Maarten Bosma, Zongwei Zhou, Tao Wang, Yu Emma Wang, Kellie Webster, Marie Pellat, Kevin Robinson, Kathleen Meier-Hellstern, Toju Duke, Lucas Dixon, Kun Zhang, Quoc V Le, Yonghui Wu, Zhifeng Chen, Claire Cui
GLaM:基于专家混合的高效语言模型扩展
摘要

通过增加数据量、计算资源和模型参数,语言模型的规模扩展推动了自然语言处理领域的显著进展。例如,得益于规模扩展,GPT-3在上下文学习任务上取得了优异表现。然而,训练这类大规模稠密模型需要消耗大量的计算资源。本文提出并开发了一类名为GLaM(通用语言模型,Generalist Language Model)的语言模型家族,该模型采用稀疏激活的专家混合(Mixture-of-Experts, MoE)架构,在显著提升模型容量的同时,相较于稠密模型大幅降低了训练成本。其中最大的GLaM模型拥有1.2万亿参数,约为GPT-3的7倍。该模型在训练过程中仅消耗GPT-3所需能量的三分之一,且在推理阶段所需的计算浮点运算量(FLOPs)仅为GPT-3的一半,同时在29项自然语言处理任务上均实现了更优的零样本(zero-shot)与单样本(one-shot)性能。