Command Palette
Search for a command to run...
Abdelaziz Bounhar Hadi Abdine Evan Dufraisse Ahmad Chamma Amr Mohamed Dani Bouch Michalis Vazirgiannis Guokan Shang

要約
ステップバイステップの推論を学習するための大規模言語モデル(LLM)は、しばしば過剰に冗長な出力を生成する傾向があり、推論コストが上昇する。標準的な検証可能な報酬を用いた強化学習(RLVR)パイプラインでは、学習効率を高めるために「簡単な」問題を事前に除外するが、その結果、モデルは主に長大な推論チェーンを必要とする難しい問題にのみ訓練されることになる。このため、出力長の分布が上方に偏り、「より長く考える」ことと「より良い思考」を同一視する傾向が生じる。本研究では、中程度に簡単な問題を保持し、わずかに重みを高くすることで、出力長に対する暗黙的な正則化が実現されることを示す。短い推論チェーンで解ける問題にモデルを露出させることで、出力分布が制約され、過度な冗長性が抑制される。その結果、「無料で出現する簡潔さ(emergent brevity for free)」が得られる:明示的な長さペナルティを設けないにもかかわらず、難しい問題を解く能力を維持しつつ、出力長が膨張することなく対応できる。Qwen3-4B-Thinking-2507(16kトークンの制限付き)を対象としたRLVR実験において、このアプローチにより、ベースラインのpass@1 AIME25精度を維持しつつ、平均して出力長がほぼ2倍短くなる結果が得られた。コードは https://github.com/MBZUAI-Paris/Frugal-AI{GitHub} にて公開されており、データセットおよびモデルは https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging Face} で入手可能である。