HyperAIHyperAI

Command Palette

Search for a command to run...

自己蒸留を用いた強化学習

概要

大規模言語モデルは、コードや数学など検証可能な領域において、強化学習を用いた後学習がますます普及している。しかし、現在の検証可能な報酬を用いた強化学習(RLVR)手法は、各試行ごとにスカラー値の結果報酬しか学習しないという問題を抱えており、嚴重な報酬割り当てのボトルネックを引き起こしている。実際、多くの検証可能な環境では、実行時エラー、評価者による評価など、試行が失敗した理由を説明する豊富なテキストフィードバックを提供している。本研究では、この状況を「豊富なフィードバックを伴う強化学習」として形式化し、自己蒸留方策最適化(Self-Distillation Policy Optimization: SDPO)を提案する。SDPOは、外部の教師モデルや明示的な報酬モデルを一切用いずに、トークン化されたフィードバックを濃密な学習信号に変換する。SDPOは、フィードバックを条件とした現在のモデルを自己教師とみなし、そのフィードバックに基づいた次のトークン予測を、方策に再び蒸留する。このようにして、SDPOはモデルがコンテキスト内において自身の誤りを後から識別する能力を活用する。LiveCodeBench v6における科学的推論、ツール利用、競技プログラミングの各タスクにおいて、SDPOは強力なRLVRベースラインと比較して、サンプル効率と最終的な精度の両面で向上を達成した。特に注目すべきは、スカラー値のフィードバックしか返さない標準的なRLVR環境においても、成功したロールアウトを失敗した試行に対する暗黙のフィードバックとして利用することで、ベースラインを上回る性能を発揮した点である。さらに、テスト時における個別問題にSDPOを適用することで、困難な二値報酬タスクにおいて探索の加速が可能となり、3倍少ない試行回数で、best-of-kサンプリングや複数ターン会話と同等の探索確率を達成した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
自己蒸留を用いた強化学習 | 記事 | HyperAI超神経