HyperAIHyperAI

Command Palette

Search for a command to run...

AIトレーニングのネットワーク混雑を改善するUCCLの新技術

AIのトレーニングにおいてネットワークの混雑を解消する技術として、UCCL(Unified Collective Communication Library)が注目されている。AIモデルの訓練には膨大なGPUが必要で、それぞれがデータを共有する必要があるが、この通信がネットワークのボトルネックになるケースが多いため、効率的な通信方法が求められている。特に、大規模なトレーニングでは、GPU間で大量のデータを一括でやり取りする「AllReduce」という通信パターンが発生し、ネットワークが混雑しやすくなる。 従来のRDMA(Remote Direct Memory Access)技術は、ストレージやトランザクション処理に最適化されており、AIトレーニングのような一時的な大量データ送信には不向きである。RoCEv2、DCQCN、PFCといったプロトコルは、AIの通信パターンに適応できず、ECMP(Equal-Cost Multi-Path)のハッシュ衝突が発生し、ネットワークが過負荷になる問題がある。 UCCLは、NCCLとNICドライバの間に設置されるソフトウェア定義の通信層で、トレーニングの通信パターンを事前に把握し、受信側が送信を制御する仕組みを採用。これにより、送信が一括でネットワークに押し込まれるのを防ぎ、通信をスムーズに保つ。また、専用のハードウェアキューではなく、ソフトウェアキューを用いることで、送信タイミングを調整し、混雑を回避。さらに、1つのNICに対して1つのキューを共有することで、ECMPによる不適切なルーティングを防ぐ。 実験では、UCCLが標準的なNCCLよりもAllReduceの処理を速くし、ネットワークの遅延を大幅に減らすことが確認されている。また、既存のネットワーク機器でも動作し、インフラの変更を必要としない点が利点。AIトレーニングの効率化に貢献する技術として、今後の採用が期待されている。

関連リンク

AIトレーニングのネットワーク混雑を改善するUCCLの新技術 | 人気の記事 | HyperAI超神経