Command Palette

Search for a command to run...

1ヶ月前

Compute as Teacher:推論計算を参照なし教師信号へと変換する

Dulhan Jayalath Shashwat Goel Thomas Foster Parag Jain Suchin Gururangan et al

Compute as Teacher:推論計算を参照なし教師信号へと変換する

要約

訓練後の段階で真の正解(ground truth)が存在しない場合、学習信号はどこから得られるのか?本研究では、「計算資源を教師とする(Compute as Teacher, CaT)」という手法を提案する。この手法は、推論時にモデルが行う探索行動を、参照なしの監視信号に変換する。具体的には、並列に実行された複数のロールアウト(推論パス)群から1つの参照を合成し、その参照に向かって最適化を行うことで、推論時の追加計算を監視信号として活用する。実装上、現在の方策が複数のロールアウトを生成する。その際、固定されたアンカー(初期方策)が、これらのロールアウトの矛盾や欠落を統合・修正することで、参照を推定する。これにより、推論時に発生する追加の計算資源が、教師信号として再利用される。この教師信号を、2つの状況に応じて報酬に変換する。(i)検証可能なタスクでは、最終出力のプログラム的同等性(programmatic equivalence)を用いる。(ii)検証不可能なタスクでは、自己提案された評価基準(バイナリ形式の検証可能な基準)を用い、独立した大規模言語モデル(LLM)のジャッジがその満たされた割合に基づいて報酬を付与する。選択的手法(Best-of-N、多数決、周辺度、ジャッジスコアなど)とは異なり、合成法は多数派と異なる結果を出すこともあるが、その場合でもすべてのロールアウトが誤りであっても正解を導く可能性がある。性能はロールアウトの数に比例して向上する。この手法は推論時(テスト時)に適用可能であり、Gemma 3 4B、Qwen 3 4B、Llama 3.1 8Bにおいて、MATH-500で最大+27%、HealthBenchで最大+12%の性能向上を達成した。さらに強化学習(CaT-RL)を組み合わせることで、さらなる向上(最大+33%および+30%)が得られ、学習された方策は初期の教師信号を上回る性能を発揮した。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Compute as Teacher:推論計算を参照なし教師信号へと変換する | 論文 | HyperAI超神経