Charlie Zhang Graham Neubig Xiang Yue

要約
最近の強化学習(RL)技術は、言語モデルにおける推論能力の顕著な向上をもたらしたが、事後学習(post-training)が事前学習中に獲得された能力を超えてモデルの推論能力を本質的に拡張するかどうかは、依然として明確でない。この分野における中心的な課題は、現代の学習パイプラインにおける制御の欠如にある。大規模な事前学習コーパスは不透明であり、中間段階の学習はしばしば無視され、またRLの目的関数は未知の事前知識と複雑に相互作用する。この曖昧さを解消するため、本研究では、事前学習、中間学習、RLに基づく事後学習の因果的寄与を明確に分離する完全に制御された実験フレームワークを構築した。本アプローチでは、明示的な原子操作を備えた合成的推論タスクを用い、解析可能な段階的推論トレースを生成し、学習分布を体系的に操作する。モデルの評価は、より複雑な構成への外挿的汎化、および表面的な文脈を越えた文脈的汎化という二つの軸で行われた。このフレームワークを用いることで、RLの有効性に関する対立する見解を統合する。本研究の主な発見は以下の通りである。1)RLが本質的な能力向上(pass@128)をもたらすのは、事前学習が十分な余地(headroom)を残している場合、かつRLデータがモデルの能力の限界に近いタスク(難易度は高いが、まだ到達可能である)を対象としている場合に限られる。2)文脈的汎化には、最小限ながら十分な事前学習の曝露が要求され、その後、RLは信頼性の高い転移が可能となる。3)固定計算資源下では、RL単体に比べ、中間学習が性能を顕著に向上させ、学習パイプラインにおける中間学習の中心的だが、未だ十分に検討されていない役割を示している。4)プロセスレベルの報酬設計は、報酬の悪用(reward hacking)を低減し、推論の整合性を向上させる。以上の結果により、事前学習、中間学習、RLの相互作用の本質が明確になり、推論を有する言語モデルの学習戦略の理解と改善に向けた基盤が提供された。