AIファクトリー時代の到来:GPU連携と光通信が描く次世代データセンターの全貌
世界中でAI専用の巨大データセンターが相次いで建設されている。これらは従来のWebやメールを処理するためのデータセンターではなく、人工知能モデルの学習と運用を目的とした「AI工場」と呼ばれる施設だ。インターネット大手や政府が数十億ドルを投じ、AIの次世代開発基盤を整備している。特に、大規模言語モデル(LLM)の学習には、数十万基のGPUを連携させる分散処理が不可欠であり、その性能はGPU間の接続技術に大きく左右される。 こうしたAI工場の核となるのは、ネットワークの設計だ。従来のEthernetでは、遅延やデータ損失が発生し、AIの学習や推論に不向き。代わりに、NVIDIAのInfiniBand技術が主流となり、低遅延・高帯域・確定的性能を実現。特に、NVIDIA Quantum InfiniBandは、集約演算(all-reduce)をネットワーク内ですべて処理し、データ転送速度を倍増。SHARPv4やテレメトリベースの混雑制御により、複数のGPUクラスタ間で安定した通信を可能にしている。 一方、企業の多くは既存のEthernetインフラに投資しており、これをAIに活かす必要がある。これに対応してNVIDIAは「Spectrum-X」を発表。標準Ethernetに準拠しながら、ロスレス通信、適応ルーティング、性能隔離を実現。ConnectX-8 SuperNICと組み合わせることで、800Gb/sの高速接続とパケット再順序化のオフロードを可能にし、大規模なAIクラスタで95%のデータ透過率を達成。従来のEthernetでは60%程度にとどまる。 さらに、GPU間接続にはNVLinkが使われる。GB300 NVL72システムでは、36CPUと72GPUを1つのNVLinkドメインに統合し、130TB/sのGPU間帯域を実現。これにより、1つのラックが巨大な1台のGPUとして動作する。 将来の目標は「ミリオンGPU規模」のギガワット級AI工場。その実現には、シリコンフォトニクスを内蔵したQuantum-XやSpectrum-X Photonicsが鍵となる。これらは従来の光モジュールよりも3.5倍の効率、10倍の耐障害性を実現し、電力と密度の限界を突破する。 NVIDIAは、InfiniBandとSpectrum-Xをオープン標準に基づき展開。SONiCやNCCL、DOCAといったソフトウェアスタックも多様なハードウェアで動作可能。しかし、実際のAIクラスタでは、ハードウェアとソフトウェアの端から端までの最適化が求められる。 結論として、AI工場時代の鍵は「データセンターがコンピュータそのものになる」こと。ネットワークはもはや補助ではなく、AIの性能を決める中心要素となった。
