盘古超大规模模型:在昇腾NPUs上推动密集型大语言模型的极限
Yichun Yin, Wenyong Huang, Kaikai Song, Yehui Tang, Xueyu Wu, Wei Guo, Peng Guo, Yaoyuan Wang, Xiaojun Meng, Yasheng Wang, Dong Li, Can Chen, Dandan Tu, Yin Li, Fisher Yu, Ruiming Tang, Yunhe Wang, Baojun Wang, Bin Wang, Bo Wang, Boxiao Liu, Changzheng Zhang, Duyu Tang, Fei Mi, Hui Jin, Jiansheng Wei, Jiarui Qin, Jinpeng Li, Jun Zhao, Liqun Deng, Lin Li, Minghui Xu, Naifu Zhang, Nianzu Zheng, Qiang Li, Rongju Ruan, Shengjun Cheng, Tianyu Guo, Wei He, Wei Li, Weiwen Liu, Wulong Liu, Xinyi Dai, Yonghan Dong, Yu Pan, Yue Li, Yufei Wang, Yujun Li, Yunsheng Ni, Zhe Liu, Zhenhe Zhang, Zhicheng Liu
发布日期: 4/16/2025

摘要
我们介绍了盘古超大规模语言模型(Pangu Ultra),该模型拥有1350亿参数和密集的Transformer模块,并在昇腾神经处理单元(Ascend NPUs)上进行了训练。尽管近年来大规模语言模型(LLM)领域在扩展规模和提升能力方面取得了前所未有的进展,但训练如此大规模的模型仍然面临显著的优化和系统挑战。为了稳定训练过程,我们提出了深度缩放三明治归一化方法,该方法在深度模型的训练过程中有效消除了损失峰值。我们在13.2万亿个多样且高质量的标记上对模型进行了预训练,并在后续训练中进一步增强了其推理能力。为了高效地进行如此大规模的训练,我们利用了8192个昇腾神经处理单元(Ascend NPUs)并进行了一系列系统优化。在多个多样化的基准测试中,评估结果表明盘古超大规模语言模型显著提升了密集型LLM如Llama 405B和Mistral Large 2的最先进能力,甚至在某些方面与参数量更多的稀疏模型结构DeepSeek-R1取得了竞争性的结果。我们的探索表明,昇腾神经处理单元能够高效且有效地训练参数量超过1000亿的密集模型。我们的模型和系统将向商业客户开放。