Command Palette
Search for a command to run...
ThinkTwice: 推論とSelf-RefinementのためにLarge Language Modelsを共同最適化する手法
ThinkTwice: 推論とSelf-RefinementのためにLarge Language Modelsを共同最適化する手法
Difan Jiao Qianfeng Wen Blair Yang Zhenwei Tang Ashton Anderson
概要
ご依頼ありがとうございます。ご指定いただいた技術的な専門用語(LLM, GRPO, RLVRなど)の扱いおよび、科学論文・技術ニュースとしての硬い文体(だ・である調)に基づき、以下の通り日本語に翻訳いたしました。【翻訳文】我々は、Group Relative Policy Optimization (GRPO) に基づき、推論問題の解決と回答の精緻化(refinement)を共同で最適化するシンプルな2フェーズ・フレームワーク「ThinkTwice」を提案する。ThinkTwiceは、一対のトレーニングステップにおいて、まず推論問題の解決に向けてモデルを最適化し、次に同一の問題に対する自身の解法を精緻化するように最適化を行う。両フェーズにおいて、正解・不正解のラベル(correctness signals)や批判的なアノテーション(critique annotations)を用いることなく、同一のバイナリ形式の正誤報酬(binary correctness reward)を使用する点が特徴である。Qwen3-4BおよびOlmo3-7Bを含む2つのモデルファミリーと、5つの数学的推論benchmarkを用いた評価において、ThinkTwiceは既存の強力なオンライン・ポリシー最適化(online policy optimization)のbaselineと比較して、推論能力と精緻化能力の両面で大幅な向上を実現した。具体的には、Qwen3-4Bにおいて、pass@4で測定した結果、ThinkTwiceはAIMEにおいて、精緻化前でGRPOを5ポイント、1回の自己精緻化(self-refinement)ステップ後では11.5ポイント上回った。ThinkTwiceのトレーニング・ダイナミクスの解析により、「修正してから強化する(rectify-then-fortify)」という暗黙的なカリキュラムの存在が明らかになった。すなわち、トレーニングの初期段階では精緻化プロセスが主にエラーの修正に寄与し、モデルの性能向上に伴って、既に正解している解法を維持する方向へと自然に移行することで、より洗練された報酬信号(rectified reward signal)を生み出している。本研究は、推論と自己精緻化の共同トレーニングが、RLVR(Reinforcement Learning from Verifiable Rewards)における原理に基づいた効果的な手法であることを確立するものである。