SPEED-Bench:推測的生成向けの統一ベンチマークが公開
推測デコード(SD)は、軽量なドラフトモデルで将来のトークンを予測し、ターゲットモデルで並列検証を行うことで大規模言語モデルの推論速度を大幅に向上させる重要な技術です。しかし、既存の評価ベンチマークは入力セットが小さく、意味的多様性に欠け、実際の生産環境を反映していないため、評価結果が偏る問題がありました。この課題に対処するため、研究者たちは生産グレードの推論エンジンを用い、多様なセマンティックドメインとリアルなサービング条件下で SD を評価する統合ベンチマーク「SPEED-Bench」を提案しました。 SPEED-Bench は、ドラフトの質を測定する「定性的スプリット」と、システム全体の速度向上を測定する「スループットスプリット」の 2 つのデータセットと、統一された測定フレームワークで構成されています。定性的スプリットは、コード、数学、要約、ロールプレイなど 11 のカテゴリにわたり、880 のプロンプトから構成されています。既存ベンチマークとの違いは、埋め込みベクトル空間を活用してカテゴリ内の類似度を最小化するアルゴリズムを採用したことで、意味的多様性を最大化している点です。これにより、ドメインに依存する推測品質の格差を正確に捉えることが可能になりました。 スループットスプリットは、1,000 から 32,000 トークンまでの入力シーケンス長に対応し、バッチサイズ最大 512 の高同時実行環境を模擬します。これにより、メモリー束縛型と計算束縛型の切り替わりなど、実際の運用環境でのトレードオフを評価できます。また、測定フレームワークは入力トークン化とプロンプトフォーマットをエンジン外で統一することで、TensorRT-LLM、vLLM、SGLang などの異なる推論エンジン間での公平な比較を実現します。 実証実験の結果、推測の成功率はドメインに大きく依存することが明らかになりました。コードや数学などの低エントロピーな領域では推測長が長く伸びますが、ロールプレイや執筆など高エントロピーな領域では困難を来します。また、軽量の N-Gram 推測手法は中規模バッチサイズでは速度向上をもたらさない場合もあり、ベースモデルとドラフトモデルを最初から共訓練する MTP ヘッドの方が、既存のポストトレーニング手法より優れた性能を示しました。さらに、 vocab の削減などの最適化は一部の領域では有効ですが、長尾のユーザー入力では精度を低下させることも判明し、多様性のあるデータセットの重要性が再確認されました。 SPEED-Bench は、ランダムなトークン入力を用いた従来のベンチマークがスループットを約 23% も過大評価していた事実も明らかにしました。ランダム入力は専門家モデルのルーティングを正しくトリガーせず、実際の生産環境での性能を歪めることが示唆されています。この新しいベンチマークは、研究および産業界において、より厳密で現実的な推測デコードの評価基準を確立し、実用化に向けた信頼性の高い比較を可能にするツールとして提供されています。
