HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA、Vera Rubin+LPX の異種推論アーキテクチャを発表し、低遅延な AI とエージェント時代を志向する

今年の NVIDIA GTC で、NVIDIA は次世代の AI インフラ推論向けに設計された新しいアーキテクチャ・コンボである「Vera Rubin NVL72 GPU」と「Groq 3 LPX 推論システム」を発表しました。この組み合わせの中核となる目的は、現在の AI アプリケーションにおいて顕著になっている重要な課題を解決することです。すなわち、大量のスループットを保証しつつ、低遅延かつ予測可能なインタラクティブ体験を実現するということです。 LPX はラックレベルでの展開を対象とした推論アクセレレーション・システムです。各ラックには 32 の液体冷却計算トレイが組み込まれており、それぞれのトレイには 8 つの LPU(言語処理ユニット)アクセレーターとホストプロセッサ、通信拡張モジュールが統合されています。ケーブルレス設計と広帯域インターコネクトにより、本システムは異なるトレイ間やラックを超えた効率的なデータ転送を実現し、分散型推論における通信オーバーヘッドと遅延ジッターを削減します。 アーキテクチャ面では、LPX の核心は新型の Groq 3 LPU チップです。従来の GPU がピーク演算能力を重視するのに対し、LPU はより「確定的実行」とデータフロー制御を強調しています。計算、メモリ、通信はすべてコンパイラーによって統一してスケジューリングされるため、ランタイム時の不確かさに起因する遅延変動を防ぎます。チップ内には大容量の SRAM を主な作業記憶として採用し、明示的なデータスケジューリングによってキャッシュミスによるパフォーマンス低下を最小化します。このような設計は、デコード中心の推論フェーズ、つまり現在の大規模モデルにおける対話体験のボトルネックとなっている部分に特に適しています。 AI アプリケーションがオフライン処理からリアルタイム対話へと移行するにつれ、推論負荷には構造的変化が生じています。例えば、コーディングアシスタント、会話ロボット、多段階エージェントシステムなどは、「最初のトークン到達時間」(TTFT)および「トークンごとの遅延」に対して極めて敏感です。また、文脈長の延長や推論チェーンの複雑化に伴い、データ転送量とメモリー帯域幅が新たな制約要因となっています。こうした背景の中で、単一のハードウェアアーキテクチャでスループットと応答性の両立を図ることは困難になっています。 これに対する NVIDIA の回答は「異種混合推論」です。このモードでは、Vera Rubin GPU が大規模文脈やアテンション計算など高スループットタスクを担当し、LPX は遅延に敏感なデコードフェーズの計算、具体的にはフィードフォワードネットワーク(FFN)や MoE エキスパートモジュールの実行に特化します。両者は高速インターコネクトを通じて協調動作することで、全体としてのスループット能力を維持しながら、対話性能を大幅に向上させます。 このアーキテクチャは、近年台頭しているエージェント系アプリケーションにも適用可能です。複数回の推論、ツール呼び出し、フィードバックループにおいては、遅延がステップごとに累積され、最終的にユーザーエクスペリエンスに直接影響を与えます。LPX が提供する低ジッターかつ予測可能な実行機能は、これらのシナリオにとって不可欠な補完要素となります。 総合的に見ると、Vera Rubin と LPX の組み合わせは単なるハードウェアアップグレードではなく、AI 推論システムの設計思想そのものの転換を示唆しています。それは個別のパフォーマンス指標最適化から、実際の使用場面を踏まえた多次元のバランスへという方向性への移行です。「コンテンツ生成」から「タスク実行」へと進化する AI の過程において、このアーキテクチャは次世代 AI インフラストラクチャーの鍵となる形態の一つとなり得ます。

関連リンク