
要約
大規模言語モデル(LLM)は、自己一貫性と多数決による投票といったテスト時スケーリング手法を用いて、推論タスクにおいて大きな潜在能力を示している。しかし、このようなアプローチは精度の増加が飽和しやすく、計算コストも高くなる傾向がある。これらの課題に対処するため、本研究では「信頼度を伴うディープシンキング(DeepConf)」を提案する。DeepConfは、テスト時の推論効率と性能の両方を向上させる、簡潔かつ強力な手法である。本手法は、モデル内部の信頼度信号を活用し、生成中または生成後に低品質な推論経路を動的にフィルタリングする。追加のモデル学習やハイパーパラメータのチューニングを必要とせず、既存のサービングフレームワークへスムーズに統合可能である。本研究では、Qwen 3やGPT-OSSシリーズを含む最新のオープンソースモデルを対象に、さまざまな推論タスクにおいてDeepConfの効果を評価した。特に、AIME 2025などの難易度の高いベンチマークにおいて、DeepConf@512は最大99.9%の精度を達成し、完全並列推論(full parallel thinking)と比較して生成トークン数を最大84.7%削減することに成功した。