Command Palette
Search for a command to run...
MUR:大規模言語モデルにおけるモーメント不確実性を用いた推論
MUR:大規模言語モデルにおけるモーメント不確実性を用いた推論
概要
大規模言語モデル(LLM)は、推論が求められるタスクにおいて驚くべき性能を達成していますが、その推論効率を最適化することには依然として課題があります。Test-Time Scaling(TTS)は推論品質を向上させますが、多くの場合、過度な思考を引き起こし、冗長な計算にトークンを浪費する傾向があります。本研究では、追加のトレーニングを必要とせずに、効率的かつ適応的な方法でLLMのTTSをガイドする手段を検討します。物理における運動量の概念にインスパイアされ、我々は運動量に基づく不確実性を用いた推論(Momentum Uncertainty-guided Reasoning:MUR)を提案します。この手法は、時間とともにステップごとの不確実性を追跡・集約し、重要な推論ステップに動的に思考予算を割り当てることで、効率的な推論を実現します。推論時の柔軟な制御をサポートするために、単一のハイパラメータで推論予算を調整できるgamma-controlという単純なメカニズムを導入します。MURの安定性とバイアスの優位性に関する理論的な証明を詳細に行います。MURは、最近のQwen3モデル(1.7B、4B、8B)を用いて、MATH-500、AIME24、AIME25、GPQA-diamondという4つの困難なベンチマークにおいて、さまざまなTTS手法と比較して総合的に評価されました。結果から、MURは平均で計算量を50%以上削減しつつ、精度を0.62〜3.37%向上させることを示しました。