腸内細菌に導かれて:強化された内在的信頼性を用いた効率的なテストタイムスケーリング
Ghasemabadi, Amirhosein ; Mills, Keith G. ; Li, Baochun ; Niu, Di
公開日: 5/29/2025

要約
テストタイムスケーリング(TTS)手法は、大規模言語モデル(LLM)の推論能力を向上させる一方で、しばしば外部プロセス報酬モデル(PRM)やBest-of-N(BoN)などのサンプリング手法に大きく依存することから、大きな計算コストを伴います。本論文では、Guided by Gut(GG)と呼ばれる効率的な自己誘導型TTSフレームワークを紹介します。この手法は、外部の検証モデルを使用せずにPRMレベルの性能を達成します。当手法では、トークンレベルの信頼度とステップの新規性のみに基づく軽量な木探索を用いています。重要な革新点は、内部信頼度推定の信頼性を向上させるための対象指向強化学習による微調整フェーズです。困難な数学的推論ベンチマークでの実験評価により、GGが较小規模のモデル(例:1.5Bパラメータ)が大幅に大規模なモデル(例:32B-70Bパラメータ)に匹敵するかそれ以上の精度を達成し、GPUメモリ使用量を最大10倍削減できることを示しています。PRMベースの手法と比較して、GGは8倍速い推論速度と4-5倍低いメモリ使用量で同等の精度を達成します。さらに、GGはBoN戦略に比べてKVキャッシュメモリ使用量を約50%削減し、TTS技術のより効率的かつ実用的な展開を可能にします。