Back to Headlines

NVIDIA NVLink Fusionで実現する大規模AI推論の高性能・柔軟性を支えるスケールアップ基盤

3日前

AIモデルの複雑さが指数関数的に増加し、パラメータ数が数百万から数兆にまで拡大する中、推論処理に必要な計算リソースも飛躍的に増大している。特に混合専門家(MoE)アーキテクチャや推論時のスケーリング技術の導入により、GPUクラスタによる大規模並列処理が不可欠となりつつある。こうした状況に対応するため、NVIDIAはNVLinkとNVLink Fusion技術を進化させ、GPU間の高速通信とスケールアップ能力を強化している。 NVLinkは2016年に登場し、PCIeの限界を克服し、GPU間の高速通信と統合メモリ空間を実現。2018年にはNVLink Switchが導入され、8GPU環境で全対全通信で300GB/sの帯域を達成。その後、2024年の第5世代NVLinkでは、72GPU間で1,800GB/sの通信を実現し、合計130TB/sの帯域を提供。これは初代の800倍に相当する飛躍的な進化である。 この高速通信を支えるのが、NVIDIA Collective Communication Library(NCCL)であり、これはオープンソースで開発され、複数ノード間のGPU通信を理論最大帯域に近づける。NCCLは主要なディープラーニングフレームワークに統合されており、10年以上にわたる実運用実績を持つ。 NVLink Fusionは、ハイパースケーラー向けに、NVIDIAのNVLinkスケールアップ技術をカスタムチップ(CPUやXPU)に提供する仕組み。UCIe(Universal Chiplet Interconnect Express)を介したXPUとの統合や、NVLink-C2C IPを用いたCPUとの接続により、柔軟なカスタムAIインフラの構築が可能。OCP MGXラックとしてのモジュール化により、NIC、DPU、スケールアウトスイッチとの連携も容易。 この技術により、AIファクトリーの推論性能が飛躍的に向上し、単位電力あたりのスループットと遅延のバランス(Pareto曲線)を最大化。結果として、AI推論の生産性と収益性が大幅に向上。既にGB200 NVL72やGB300 NVL72といったNVIDIA製システムが量産段階で展開されており、サプライチェーンとパートナーエコシステムも整備されている。 NVLink Fusionは、AI推論の未来を支えるスケールアップ基盤として、性能と柔軟性の両立を実現。AIの本格的な活用に向けたインフラの進化を牽引している。

Related Links