2 个月前

GLM-130B:一个开放的双语预训练模型

Aohan Zeng; Xiao Liu; Zhengxiao Du; Zihan Wang; Hanyu Lai; Ming Ding; Zhuoyi Yang; Yifan Xu; Wendi Zheng; Xiao Xia; Weng Lam Tam; Zixuan Ma; Yufei Xue; Jidong Zhai; Wenguang Chen; Peng Zhang; Yuxiao Dong; Jie Tang
GLM-130B:一个开放的双语预训练模型
摘要

我们介绍了GLM-130B,这是一个具有1300亿参数的双语(英语和汉语)预训练语言模型。该模型旨在开源一个至少与GPT-3(达芬奇)相当的百亿规模模型,并揭示如何成功地预训练如此大规模的模型。在这一过程中,我们遇到了许多意想不到的技术和工程挑战,特别是在损失峰值和发散问题上。本文介绍了GLM-130B的训练过程,包括其设计选择、为提高效率和稳定性而采用的训练策略以及工程努力。最终,GLM-130B在广泛的流行英语基准测试中显著优于GPT-3 1750亿参数(达芬奇),而在OPT-1750亿参数和BLOOM-1760亿参数模型中未观察到这种性能优势。此外,GLM-130B在相关基准测试中也始终显著优于最大的汉语语言模型ERNIE TITAN 3.0 2600亿参数。最后,我们利用了GLM-130B的独特缩放特性,在无需后训练的情况下实现了INT4量化,几乎没有任何性能损失,使其成为首个实现这一目标的百亿规模模型。更重要的是,这使得GLM-130B能够在4×RTX 3090(24GB)或8×RTX 2080 Ti(11GB)GPU上进行有效推理,这些是最经济实惠的用于运行百亿规模模型的GPU。GLM-130B的模型权重已公开访问,其代码、训练日志、相关工具包及经验教训已在\url{https://github.com/THUDM/GLM-130B/} 开源。