NVIDIA、長文推論を分解してコスト削減——「Rubin CPX」で6倍のスループット実現
NVIDIAが2026年後半から2027年半ばにかけてのAI計算需要のピークに備え、長文処理に特化した「Rubin CPX」GPUを発表した。この新製品は、高価なHBMメモリを搭載した高性能GPUとは異なり、GDDR7メモリを採用し、コストを抑えるとともに、長文推論(長文コンテキスト処理)に特化したアーキテクチャを持つ。AI推論のうち、コード生成や動画処理など100万トークン以上のコンテキストを扱うワークロードは全体の約1/6に過ぎないが、高価なHBMメモリを用いた単一GPUでは効率が悪く、経済的負担が大きい。 NVIDIAは、この課題を「分散型推論(disaggregated inference)」で解決する。具体的には、コンテキスト処理(prefill)とトークン生成(decode)を別々のGPUで分担。Rubin CPXはコンテキスト処理を担当し、別のRubin GPUが生成処理を行う。中間のKVキャッシュを活用することで、繰り返し全コンテキストを再処理する必要がなく、2台のGPUで従来比6倍のスループットが実現可能。計算量は2.25倍にしか増えていないため、コストパフォーマンスは飛躍的に向上する。 Rubin CPXは30ペタフロップス(FP4精度)の性能を持ち、GDDR7メモリ128GBを搭載。HBM3E(288GB)やHBM4E(1,024GB)を搭載する高性能GPUと比べ、メモリ帯域は約2.1TB/secと低く抑えられるが、長文処理に必要な計算性能と動画エンコーディング機能を備えている。NVIDIAは、このアーキテクチャにより、1000万ドルの投資で50億ドルの収益を創出できると見込んでおり、特にコード生成や動画AI分野での採用が期待される。 さらに、Vera Rubinラックに8台のRubin CPXを追加することで、追加で4.4エクサフロップスの計算能力と300TB/secの帯域を獲得。144台のCPXを搭載したラックでは、合計1.7PB/secのメモリ帯域と25TBの高速メモリを確保できる。この設計により、大規模なAI推論インフラの柔軟性とコスト効率が大きく向上。NVIDIAは、今後数年間でこの分散アーキテクチャがAI推論の主流となると見ている。