Command Palette
Search for a command to run...

要約
現代の言語モデルにおける後処理学習(post-training)のための訓練データは、主に2つの源に分けられる。1つはオンライン(モデル生成ロールアウト)データであり、もう1つはオフライン(人間または他のモデルによる示範)データである。これらの2種類のデータは、それぞれ強化学習(RL)や教師あり微調整(SFT)といったアプローチによって用いられる。本論文では、これらのアプローチが互いに矛盾するものではなく、むしろ同一の最適化プロセスの異なる例であることを示す。我々は、統一された方策勾配推定器(Unified Policy Gradient Estimator)を導出し、さまざまなデータ分布の仮定と異なるバイアス-バリアンストレードオフの下で、広範な後処理学習アプローチを、共通の目的関数の勾配として記述する計算を提示する。この勾配推定器は、4つの相互交換可能な構成要素——安定化マスク、参照方策の分母、アドバンテージ推定、尤度勾配——から構成されている。理論的知見をもとに、異なる学習信号を動的に選択するアルゴリズムとして、ハイブリッド後処理(Hybrid Post-Training; HPT)を提案する。HPTは、示範データの有効な活用と安定した探索を両立しつつ、学習された推論パターンを損なわないように設計されている。広範な実験およびアブレーション研究を通じて、我々の統一的理論枠組みおよびHPTの有効性を検証する。6つの数学的推論ベンチマークおよび2つの分布外(out-of-distribution)セットにおいて、モデルのスケールやファミリーが異なる複数の設定で、HPTは一貫して強力なベースラインを上回る性能を示した。