HyperAI超神经
19 days ago

Pangu Pro MoE:分组专家混合以实现高效的稀疏性

Tang, Yehui ; Li, Xiaosong ; Liu, Fangcheng ; Guo, Wei ; Zhou, Hang ; Wang, Yaoyuan ; Han, Kai ; Yu, Xianzhi ; Li, Jinpeng ; Zang, Hui ; Mi, Fei ; Meng, Xiaojun ; Liu, Zhicheng ; Chen, Hanting ; Zheng, Binfan ; Chen, Can ; Yan, Youliang ; Tang, Ruiming ; Qin, Peifeng ; Chen, Xinghao ; Tao, Dacheng ; Wang, Yunhe
Pangu Pro MoE:分组专家混合以实现高效的稀疏性
摘要

专家混合(Mixture of Experts, MoE)在大规模语言模型中的兴起,承诺了以较低的执行成本换取更大的模型参数量和学习能力,因为每个输入标记只激活一小部分参数。然而,通常观察到某些专家被激活的频率远高于其他专家,这导致在不同设备上并行运行这些专家时系统效率降低。因此,我们引入了分组专家混合(Mixture of Grouped Experts, MoGE),该方法在选择过程中对专家进行分组,并且相比传统的MoE,在本质上更好地平衡了专家的工作负载。它限制每个预定义的专家组内的标记激活相同数量的专家。当模型执行分布在多个设备上时,这种架构设计确保了各设备之间的计算负载均衡,显著提高了吞吐量,特别是在推理阶段。此外,我们在昇腾NPUs上构建了基于MoGE的稀疏模型——盘古Pro MoE,该模型总参数量为720亿,其中每个标记激活160亿个参数。通过广泛的系统仿真研究,我们优化了盘古Pro MoE在昇腾300I Duo和800I A2上的配置。实验结果表明,MoGE确实实现了更好的专家负载均衡,并且在昇腾NPUs上无论是模型训练还是推理都更加高效。盘古Pro MoE的推理性能达到了每卡1148个标记/秒,并且通过推测加速可以进一步提升至每卡1528个标记/秒,优于同等规模的32B和72B密集模型。此外,我们在昇腾300I Duo上实现了出色的性能成本比。研究表明,昇腾NPUs能够通过大规模并行化训练盘古Pro MoE,使其成为总参数量小于100B类中的领先模型,并且超过了著名的开源模型如GLM-Z1-32B和Qwen3-32B。