HyperAI超神経
19日前

Pangu Pro MoE: グループ化されたエキスパートの混合体による効率的な疎性

Tang, Yehui ; Li, Xiaosong ; Liu, Fangcheng ; Guo, Wei ; Zhou, Hang ; Wang, Yaoyuan ; Han, Kai ; Yu, Xianzhi ; Li, Jinpeng ; Zang, Hui ; Mi, Fei ; Meng, Xiaojun ; Liu, Zhicheng ; Chen, Hanting ; Zheng, Binfan ; Chen, Can ; Yan, Youliang ; Tang, Ruiming ; Qin, Peifeng ; Chen, Xinghao ; Tao, Dacheng ; Wang, Yunhe
Pangu Pro MoE: グループ化されたエキスパートの混合体による効率的な疎性
要約

大規模言語モデルにおける専門家混合(Mixture of Experts: MoE)の出現は、各入力トークンに対してわずかなパラメータのみが活性化されるため、大幅に増加したモデルのパラメータ数と学習容量に対する実行コストを低く抑えることを約束しています。しかし、一般的に観察されるように、一部の専門家が他の専門家よりも遥かに頻繁に活性化されることがあり、異なるデバイスで並列に専門家を実行する際にシステム効率が低下することがあります。そこで、我々はグループ化された専門家の混合(Mixture of Grouped Experts: MoGE)を導入します。これは選択時に専門家をグループ化し、MoEよりも自然な形で専門家の作業負荷をより均等に分散させるものです。このアーキテクチャ設計は、トークンが各事前に定義された専門家グループ内で等しい数の専門家を活性化することを制約します。モデルの実行が複数のデバイスに分散される場合、この設計はデバイス間での計算負荷を均等に保つことでスループットを大幅に向上させます特に推論フェーズにおいて顕著です。さらに、我々はAscend NPU上でPangu Pro MoEを開発しました。これはMoGEに基づく疎なモデルで、総パラメータ数が720億であり、各トークンに対して160億のパラメータが活性化されます。Pangu Pro MoEの設定は広範なシステムシミュレーション研究を通じてAscend 300I Duoおよび800I A2向けに最適化されています。我々の実験結果は、MoGEがAscend NPU上でモデル訓練と推論においてより良い専門家負荷分散と効率的な実行につながることを示しています。Pangu Pro MoEの推論性能は1カードあたり1148トークン/秒であり、予測加速により1カードあたり1528トークン/秒まで向上させることができます。これにより32Bおよび72Bの密なモデルを超える性能を達成しています。さらにAscend 300I Duo上の推論では優れたコストパフォーマンス比を達成しました。我々の研究によると、Ascend NPUは大量並列化によってPangu Pro MoEを訓練でき、総パラメータ数100B未満クラスにおいて先進的なオープンソースモデルであるGLM-Z1-32BやQwen3-32Bを超えるリーディングモデルとなる可能性があります。