HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA、Hybrid-EPでMoE学習の通信効率を1.14倍に向上

大規模言語モデル(LLM)の混合専門家モデル(MoE)訓練において、専門家並列(EP)通信は、スケーラビリティと効率性の課題を抱える。特に、動的かつ疎なトークン配信(各トークンごとに上位k個の専門家のみが活性化)のため、従来の全対全通信の最適化が困難だった。NVIDIAが開発した「Hybrid-EP」は、この課題を解決するための新規通信最適化ライブラリであり、NVIDIA Megatron Coreフレームワークと連携して、NVIDIA Quantum InfiniBandおよびSpectrum-X Ethernet環境で実装されている。 DeepSeek-V3などの最新MoEモデルでは、EP通信時間が訓練全体の50%以上を占めることがあり、計算負荷の不均衡(「ホット専門家」の過負荷と「コール専門家」の未利用)も深刻な問題となる。Hybrid-EPは、NVLinkとRDMAネットワークをハイブリッドで活用し、データを細分化してパイプライン化することで、通信遅延をマスク。CUDAブロックごとに独立したデータチャネルを構築し、GPUのストリーミングマルチプロセッサ(SM)を最小限に抑えながら、通信と計算の重なりを最大化。FP8/BF16の低精度演算をネイティブにサポートし、専門家へのトークン配信(dispatch)と結果の統合(combine)の両方を効率的に処理。 実機テストでは、DGX Hopper(8H100)環境で8個のSMでNVLink帯域をほぼ完全に活用。4台のDGX Hopper(32GPU)構成では、ConnectX-7 NICの最大帯域に近い性能を、わずか4個のSMで達成。さらに、Grace Blackwellプラットフォーム(GB200NVL36、36GPU)でも16個のSMでNVLink帯域を満たす。これにより、通信のボトルネックが顕著に軽減された。 Hybrid-EPはPyTorchベースのMegatron Coreに統合されており、登録バッファと通常バッファの仕組みでメモリ管理を最適化。動的トークン数に対応するため、最悪ケースを想定したバッファ事前割り当てを採用。実際の訓練では、DeepSeek-V3でMXFP8精度で1.14倍のスループット向上を実現。他のモデル(Qwen 3 235Bなど)でも1.05~1.10倍の高速化が確認された。 この成果により、MoEモデルの訓練効率が大幅に向上し、NVIDIAの次世代ハードウェアと組み合わせて、10倍の性能向上と10分の1のコスト削減が可能になる。Hybrid-EPは、大規模AIモデルの実用化に向けた重要な技術基盤となっている。

関連リンク

NVIDIA、Hybrid-EPでMoE学習の通信効率を1.14倍に向上 | 人気の記事 | HyperAI超神経