72억 파라미터 Pangu Pro MoGE, Ascend NPUs에서 최적화
Pangu Pro MoE: 그룹화된 전문가 혼합을 통한 효율적인 희소성 저자: Yehui Tang, Xiaosong Li, Fangcheng Liu, Wei Guo, Hang Zhou, Yaoyuan Wang, Kai Han, Xianzhi Yu, Jinpeng Li, Hui Zang, Fei Mi, Xiaojun Meng, Zhicheng Liu, Hanting Chen, Binfan Zheng, Can Chen, Youliang Yan, Ruiming Tang, Peifeng Qin, Xinghao Chen, Dacheng Tao, Yunhe Wang (그 외 공헌자들) 요약: 대형 언어 모델(Large Language Models, LLMs)에서 전문가 혼합(Mixture of Experts, MoE) 기술의 등장은 더 큰 모델 매개변수 수와 학습 능력을 제공하면서 실행 비용을 크게 줄일 수 있는 가능성을 제시합니다. 이는 각 입력 토큰에 대해 오직 소수의 매개변수가 활성화되기 때문입니다. 그러나 일부 전문가들이 다른 전문가들보다 훨씬 자주 활성화되는 것으로 알려져 있어, 병렬 처리를 통해 여러 장치에서 실행될 때 시스템 비효율성이 발생하였습니다. 이를 해결하기 위해, 연구진은 전문가 선택 과정에서 전문가들을 그룹화하는 Mixture of Grouped Experts (MoGE)를 도입하였습니다. 이 설계는 각 예정된 전문가 그룹 내에서 토큰이 동일한 수의 전문가를 활성화하도록 제약을 두어, 장치 간에 균형 잡힌 계산 부하를 보장합니다. 이로 인해 특히 추론 단계에서 처리량이 크게 증가하였습니다. Pangu Pro MoE는 Ascend NPUs(신경 처리 유닛) 기반으로 구축된 720억 개의 총 매개변수를 가진 희소 모델로, 각 토큰에 대해 160억 개의 매개변수가 활성화됩니다. 연구진은 Ascend 300I Duo와 800I A2에 최적화된 설정을 찾아내기 위해 다수의 시스템 시뮬레이션 연구를 수행하였습니다. 실험 결과, MoGE는 Ascend NPUs에서 모델 학습과 추론 모두에서 더 좋은 전문가 부하 균형과 효율적인 실행을 이끌어내는 것으로 나타났습니다. Pangu Pro MoE의 추론 성능은 카드당 1148 토큰/초이며, 사전 가속 기법을 사용하면 1528 토큰/초까지 향상될 수 있습니다. 이는 동등한 320억 매개변수와 720억 매개변수의 밀도 모델(Dense models)을 능가하는 성능입니다. 또한, Ascend 300I Duo에서 Pangu Pro MoE의 추론 비용 대비 성능 비율이 매우 우수함을 입증하였습니다. 연구 결과, Ascend NPUs는 대규모 병렬화를 통해 Pangu Pro MoE를 학습할 수 있으며, 총 매개변수 1000억 미만 클래스에서 앞선 모델로 만들어, GLM-Z1-32B와 Qwen3-32B 같은 주목받는 오픈 소스 모델들을 능가하는 성능을 보여주었습니다. 산업 전문가들의 평가 및 회사 프로필: Pangu Pro MoE는 MoE 기술의 한계를 극복하고, 대형 모델의 효율적인 실행을 위한 새로운 접근 방식을 제시합니다. Ascend NPUs의 최적화를 통해, Pangu Pro MoE는 학습과 추론에서 뛰어난 성능을 발휘하며, 향후 대형 AI 모델의 개발과 배포에 큰 영향을 미칠 것으로 기대됩니다. Huaweiyun은 이러한 혁신적인 기술을 통해 AI 산업에서 더욱 경쟁력 있는 위치를 확보할 것으로 보입니다. Huaweiyun은 AI 분야에서 선두를 달리는 기업으로,Ascend NPUs와 같은 첨단 하드웨어를 개발하고 있으며, Pangu Pro MoE와 같은 고성능 모델을 구축하여 AI 기술의 발전을 주도하고 있습니다.