HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIAの新統合ツールでデータセンター規模のAI推論がシンプルに

AI推論の進化は、単一モデルの単一ノード運用から、複数のAIコンポーネントが協働する分散型システムへと移行している。これに伴い、NVIDIAはKubernetesと連携する「Dynamo」プラットフォームを通じて、クラスタ規模でのマルチノード推論を実現。特に「ディスアグリゲート推論」技術により、入力処理(プレフィル)と出力生成(デコード)を独立したGPUに割り当て、それぞれ最適化された環境で実行することで、性能と効率を大幅に向上。これにより、DeepSeek-R1のような大規模推論モデルのコストパフォーマンスが劇的に改善。NVIDIA GB200 NVL72システム上でDynamoを活用したベンチマークでは、ミキスチャー・オブ・エキスパート(MoE)モデルの「100万トークンあたりコスト」が業界最低水準を達成。 この技術革新を支えるのが「NVIDIA Grove」である。これはKubernetes上でマルチコンポーネント推論システムを宣言的に定義できるオープンソースAPIで、Dynamoのモジュールとして統合。開発者は「prefillに3ノード、decodeに6ノードを割り当て、すべてのノードを高速インターコネクトに配置」といった単一の仕様でシステム全体を記述。Groveは自動的に階層的ギャングスケジューリング、トポロジーアウェア配置、多段階スケーリング、明示的な起動順序制御を実行。これにより、プレフィルリーダーとワーカー、デコードコンポーネントの依存関係を正確に管理し、ネットワーク遅延を最小限に抑える。 実際の導入事例として、BasetenはGroveを活用して長文コード生成の推論速度を2倍に、スループットを1.6倍に向上。ハードウェア追加コストなしにソフトウェアによるパフォーマンス向上を実現した。これはAIサービス提供者が「知能の製造コスト」を削減する上で大きな意義を持つ。 クラウド環境では、AWS、Azure、Google Cloudなどの主要プロバイダーがNVIDIA Dynamoを統合したマネージドKubernetesサービスを提供。これにより、企業規模のAIデプロイメントが、Blackwellアーキテクチャを活用しながら、性能・柔軟性・信頼性を兼ね備えた形で実現可能に。NebiusもNVIDIAのアクセラレーテッドコンピューティング基盤とDynamoを組み合わせ、大規模推論ワークロード向けのクラウドを構築中。 AI推論の未来は、単なるモデル複製ではなく、コンポーネント間の協調と最適配置にかかっている。NVIDIA GroveとDynamoの統合により、開発者は複雑な推論パイプラインをシンプルに設計・スケーリングでき、KubeCon Atlantaでの展示を通じて、クラスタ規模AIの実現が加速している。

関連リンク