HyperAI超神经
Back to Headlines

Pangu Pro MoE:通过分组专家技术提高语言模型效率和性能

14 days ago

大规模语言模型(LLM)的发展带来了模型参数量和学习能力的巨大增长,但计算成本也是一个不可忽视的问题。近期,混合专家(Mixture of Experts,MoE)架构的出现,为这一问题提供了新的解决思路。然而,传统MoE 架构在实际应用中存在一些问题:不同专家之间的负载不平衡,导致并行计算时系统效率低下。为此,来自多家研究机构的科学家团队提出了一种新的架构——Mixture of Grouped Experts(MoGE)。 MoGE 通过在选择过程中对专家进行分组,确保了每个输入令牌激活相同数量的专家。当模型执行在多个设备上分布时,这种设计能够平衡各设备的计算负载,显著提高吞吐量,特别是在推理阶段。研究人员在华为昇腾(Ascend)NPUs 上建立了一个基于 MoGE 的稀疏模型——Pangu Pro MoE,该模型总参数量达到 720 亿,但每次仅需激活 160 亿个参数。通过大量的系统仿真研究,Pangu Pro MoE 在昇腾 300I Duo 和 800I A2 设备上的配置得到了优化。 实验结果显示,Pangu Pro MoE 在 MoGE 架构下不仅实现了更好的专家负载均衡,还大幅提高了模型训练和推理的效率。具体而言,Pangu Pro MoE 在单卡上达到了 1148 个令牌/秒的推理性能,通过推测加速技术进一步提高到 1528 个令牌/秒。这一成绩远超类似的 320 亿和 720 亿参数量的密集模型。此外,研究人员在昇腾 300I Duo 上取得了极佳的推理性能与成本比。 研究团队还通过大规模并行化技术,验证了昇腾 NPUs 在训练 Pangu Pro MoE 时的表现,证明其在同类 1000 亿参数量以下的模型中具备领先地位。实验数据显示,Pangu Pro MoE 在多项指标上优于开源模型如 GLM-Z1-32B 和 Qwen3-32B,展现出卓越的性能。 业内人士认为,Pangu Pro MoE 代表了稀疏模型领域的重要进展,尤其是在计算资源分配方面。华为昇腾 NPUs 作为国产高性能 AI 计算平台,在此次研究中再次展示了其优异的技术实力。华为长期致力于 AI 领域的研发,尤其是在大规模稀疏模型的训练和推理方面积累了丰富的经验,Pangu Pro MoE 的推出进一步巩固了华为在该领域的领导地位。

Related Links