Pangu Pro MoE: 효율적인 희소성을 위한 그룹 전문가 혼합

대형 언어 모델에서 전문가 혼합(Mixture of Experts, MoE)의 등장은 각 입력 토큰에 대해 활성화되는 매개변수의 작은 부분만을 사용하여, 더 많은 모델 매개변수 수와 학습 용량을 제공할 수 있는 잠재력을 보여줍니다. 그러나 일반적으로 일부 전문가가 다른 전문가보다 훨씬 자주 활성화되는 현상이 관찰되며, 이는 병렬로 다른 장치에서 전문가를 실행할 때 시스템 효율성을 저하시킵니다. 따라서 우리는 자연스럽게 MoE보다 전문가 작업 부하를 더 잘 균형 있게 조절하는 그룹별 전문가 혼합(Mixture of Grouped Experts, MoGE)을 소개합니다. 이 방법은 선택 과정에서 전문가들을 그룹화하고, 각 사전 정의된 전專家 그룹 내에서 동일한 수의 전문가들이 활성화되도록 제약을 두어, 여러 장치에 분산된 모델 실행 시 장치 간 계산 부하를 균형 있게 유지함으로써 처리량을 크게 향상시킵니다.또한, 우리는 720억 개의 총 매개변수 중 각 토큰에 대해 160억 개의 매개변수가 활성화되는 MoGE 기반 희소 모델인 Pangu Pro MoE를 Ascend NPUs 위에 구축하였습니다. Pangu Pro MoE의 구성은 광범위한 시스템 시뮬레이션 연구를 통해 Ascend 300I Duo와 800I A2에 최적화되었습니다. 실험 결과, MoGE는 Ascend NPUs에서 모델 학습과 추론 모두에 있어 더 나은 전문가 부하 균형과 효율적인 실행을 가져오는 것으로 확인되었습니다. Pangu Pro MoE의 추론 성능은 카드당 1148 토큰/초이며, 예측 가속을 통해 카드당 1528 토큰/초까지 더욱 향상될 수 있습니다. 이는 유사한 32B 및 72B 밀도 모델보다 우수한 성능을 나타냅니다. 또한 Ascend 300I Duo에서 모델 추론에 있어 뛰어난 비용 대비 성능 비율을 달성하였습니다.우리의 연구는 Ascend NPUs가 대규모 병렬화를 통해 Pangu Pro MoE를 학습시킬 수 있으며, 이를 통해 총 매개변수가 100B 미만인 클래스 내에서 선두 모델로 만들 수 있음을 보여줍니다. 이는 GLM-Z1-32B 및 Qwen3-32B와 같은 주요 오픈 소스 모델들보다 우수한 성능을 나타냅니다.注释:- "専家"(专家)在韩文中应为“전문가”。- “卡”在韩文中通常翻译为“카드”。修正后的版本如下:대형 언어 모델에서 전문가 혼합(Mixture of Experts, MoE)의 등장은 각 입력 토큰에 대해 활성화되는 매개변수의 작은 부분만을 사용하여, 더 많은 모델 매개변수 수와 학습 용량을 제공할 수 있는 잠재력을 보여줍니다. 그러나 일반적으로 일부 전문가가 다른 전문가보다 훨씬 자주 활성화되는 현상이 관찰되며, 이는 병렬로 다른 장치에서 전문가를 실행할 때 시스템 효율성을 저하시킵니다. 따라서 우리는 자연스럽게 MoE보다 전문가 작업 부하를 더 잘 균형 있게 조절하는 그룹별 전문가 혼합(Mixture of Grouped Experts, MoGE)을 소개합니다. 이 방법은 선택 과정에서 전문가들을 그룹화하고, 각 사전 정의된 전문가 그룹 내에서 동일한 수의 전문가들이 활성화되도록 제약을 두어, 여러 장치에 분산된 모델 실행 시 장치 간 계산 부하를 균형 있게 유지함으로써 처리량을 크게 향상시킵니다.또한, 우리는 720억 개의 총 매개변수 중 각 토큰에 대해 160억 개의 매개변수가 활성화되는 MoGE 기반 희소 모델인 Pangu Pro MoE를 Ascend NPUs 위에 구축하였습니다. Pangu Pro MoE의 구성은 광범위한 시스템 시뮬레이션 연구를 통해 Ascend 300I Duo와 800I A2에 최적화되었습니다. 실험 결과, MoGE는 Ascend NPUs에서 모델 학습과 추론 모두에 있어 더 나은 전문가 부하 균형과 효율적인 실행을 가져오는 것으로 확인되었습니다. Pangu Pro MoE의 추론 성능은 카드당 1148 토큰/초이며, 예측 가속기를 통해 카드당 1528 토큰/초까지 더욱 향상될 수 있습니다. 이는 유사한 32B 및 72B 밀도 모델보다 우수한 성능을 나타냅니다. 또한 Ascend 300I Duo에서 모델 추론에 있어 뛰어난 비용 대비 성능 비율을 달성하였습니다.우리의 연구는 Ascend NPUs가 대규모 병렬화를 통해 Pangu Pro MoE를 학습시킬 수 있으며, 이를 통해 총 매개변수가 100B 미만인 클래스 내에서 선두 모델로 만들 수 있음을 보여줍니다. 이는 GLM-Z1-32B 및 Qwen3-32B와 같은 주요 오픈 소스 모델들보다 우수한 성능을 나타냅니다.