Pangu Pro MoGE: グループ化されたエキスパートミックスで効率的に大規模モデルを実現
大規模言語モデルの効率的なスパarsityを目指したPangu Pro MoEの開発 大規模言語モデルでの「エキスパートの混在」(MoE: Mixture of Experts)という手法は、少量の実行コストで大きなモデル参数数と学習能力を提供します。ただし、従来のMoEでは一部のエキスパートが頻繁に活性化され、複数のデバイスで並列処理を行う際にシステムの効率が低下することが問題視されてきました。この問題に対応するために、研究チームは「エキスパートのグループ混在」(MoGE: Mixture of Grouped Experts)を導入しました。 MoGEは、エキスパートを選択する際、トークンが各予め定義されたエキスパートグループ内で等しい数のエキスパートを活性化するように制約を設けています。これにより、実行時の負荷がより均等に分散され、特に推論フェーズでのスループットが大幅に向上します。 研究チームは更に、Ascend NPUs上で720億の総パラメータ数、それぞれのトークンごとに160億のパラメータが活性化するPangu Pro MoEというスパースモデルを開発しました。このモデルは、Ascend 300I Duoと800I A2で広範なシステムシミュレーションを経て最適化されています。実験結果では、MoGEがエキスパートの負荷バランスを改善し、Ascend NPUs上でモデルの学習と推論の効率を高めることが実証されました。 Pangu Pro MoEの推論性能は、各カードで1148トークン/秒を達成しており、投機的加速により1528トークン/秒まで向上します。これは、同程度の320億および720億パラメータを持つディエンスモデルを上回る結果となっています。さらに、 Ascend 300I Duoでは、モデルの推論におけるコストパフォーマンス比も優れていることが示されました。 Ascend NPUsは、大量の並列処理によってPangu Pro MoEを訓練し、1000億パラメータ未満のクラスでトップレベルのモデルへと押し上げることができました。同クラスにおいて、GLM-Z1-32BやQwen3-32Bといった著名なオープンソースモデルを凌駕しています。 業界からの評価 研究チームの成果は、大規模言語モデルの効率化において重要な進展を示しており、 Ascend NPUsの潜在能力を十分に引き出すことを可能にしました。このような革新的なアプローチは、産業界や学術界における大規模モデルの利用と実装をさらに推進するものと期待されています。 Pangu Pro MoEの開発を進めている深訥科技有限公司(ShenZhen Peng Cheng Lab)は、AI技術の研究開発と応用に焦点を当てた中国の有力な研究機関の一つです。