
最近、大規模推論モデル(LRMs)は、思考過程(Chain-of-Thought: CoT)の長さを拡大することで、コード推論において顕著な能力を発揮している。しかし、過度に長い推論トレースは、学習コスト、推論遅延、デプロイの実現可能性という面で大きな課題を引き起こす。こうした課題に対応するため、さまざまなCoT圧縮手法が提案されてきたが、それらには根本的なトレードオフが存在する。トークン単位の手法は構文的・論理的な整合性を損なう傾向があり、 perplexity(困惑度)に基づくステップ単位の手法は、論理的に重要な推論ステップを信頼性高く捉えることが困難である。本論文では、CoT圧縮のための新しい粗緻から精緻なフレームワーク「ASAP(Anchor-guided, Surprisal-based Pruning)」を提案する。ASAPはまず、コアとなる推論構造を保持するためのアンカー誘導型圧縮を実施し、その後の処理における探索空間を効率的に削減する。次に、新たな「最初のトークンの驚異度(first-token surprisal)」指標に基づいて、論理的に重要な推論ステップを選び出すことで、論理を意識した圧縮を実現する。最後に、ASAPはモデルに推論時に自ら簡潔なCoTを生成し、それを活用する能力を学習させることで、コード作成タスクにおける効率的な推論を可能にする。実験の結果、ASAPは複数のコード生成ベンチマークにおいて最先端の精度を達成するとともに、学習コストおよび推論コストを大幅に削減した。特に、困難なLiveCodeBench v4_v5ベンチマークにおいて、最も強力なベースラインと比較して、トークン生成量を23.5%削減し、推論遅延を43.5%短縮しながら、Pass@1で36.19%の競争力ある精度を達成した。本研究の結果は、強力かつ効率的なLRMsの構築に向けた有望な方向性を示している。