GPU はプリフィルとデコードを兼務するな
大規模言語モデルの推論コスト削減において、プリフィル(入力処理)とデコード(出力生成)という2つの異なる処理段階を同一のGPUクラスタで実行する従来の手法には重大な非効率性があります。プリフィルは行列演算に依存するため計算集約型であり、GPUのコア利用率は90%以上に達しますが、デコードは逐次的なメモリ読み出しに依存するためメモリ帯域集約型となり、利用率は30%程度に急落します。この乖離により、企業は高価なH100のような強力なGPUを、デコード中に大部分が遊休状態となりながら使用しており、実質的なコスト効率が極めて低い状況が生じています。 これを解決する「分離型推論」は、プリフィルとデコードを別々のハードウェアプールに割り当てるアプローチです。この概念はサンディエゴ大学のHao AI Labにより2024年に論文として発表され、現在はPerplexity、Meta、LinkedIn、Mistralなどの主要企業が実運用に導入しています。具体的には、入力処理専用の高性能計算機と、トークン生成専用の高帯域メモリ機をネットワークで接続し、処理ごとに切り替えて利用します。これにより、それぞれのフェーズに最適なハードウェアを選定でき、計算資源の無駄を排除できます。 実装にはKVキャッシュと呼ばれる中間状態をGPU間で転送するプロセスが必要となり、これがコストの新たな要因となります。しかし、RDMAなど高速ネットワークを活用して転送遅延を最小化し、モノリス型アーキテクチャで発生する競合によるレイテンシの増大を回避することで、全体としてのパフォーマンスとコスト効率が劇的に向上します。特にコンテキストが長く生成トークン数が多い workload では、コスト削減効果が15%から40%に達すると試算されています。 ただし、この手法はすべてのユースケースに適用されるわけではありません。短文の質問応答やプリフィル時間が短いケースでは、転送オーバーヘッドが処理時間を延ばし逆効果となる可能性があります。導入を判断するには、現在のプリフィルとデコードの時間比率、KVキャッシュの転送サイズ、プレフィックスキャッシュのヒット率、そして利用するGPU数とネットワーク環境を精査する必要があります。16GPU未満の小規模環境や、ネットワークが非対応の場合は従来方式が有効であり、大規模かつ高負荷な環境こそがこの新しい標準的なアーキテクチャを必要とします。
