HyperAI超神経
6日前

ステップヒント:多段階の逐次ヒントが強化学習による推論を向上させる

Kaiyi Zhang, Ang Lv, Jinpeng Li, Yongbo Wang, Feng Wang, Haoyuan Hu, Rui Yan
ステップヒント:多段階の逐次ヒントが強化学習による推論を向上させる
要約

強化学習による検証可能な報酬(Reinforcement Learning with Verifiable Rewards: RLVR)は、大規模言語モデル(Large Language Models: LLMs)の複雑な推論能力を向上させる有望な手法です。しかし、現在のRLVR手法は二つの重要な課題に直面しています。一つ目は「ニアミス報酬問題」で、小さな誤りがそれまでの正しい推論プロセスを無効にしてしまうため、学習効率が大きく阻害されます。二つ目は「探索停滞」で、モデルが自身の「快適ゾーン」内の解に焦点を当てがちであり、より効果的な代替案を探求する動機に欠けています。 これらの課題に対処するために、我々はStepHintと呼ばれる新しいRLVRアルゴリズムを提案します。StepHintは多段階のステップヒントを利用し、モデルが解空間をより効果的に探求できるように支援します。StepHintは強いモデルから有効な推論チェーンを生成し、我々が提案した適応分割法を使用してこれらのチェーンを推論ステップに分割します。最初の数ステップがヒントとして使用され、同時に異なるステップ数からなる複数レベルのヒントがモデルに提供されます。このアプローチにより、モデルの探求は有望な解部分空間に向かう一方で、独立した探求の柔軟性も保たれます。 ヒントの提供により、StepHintはニアミス報酬問題を緩和し、学習効率を向上させます。さらに、外部からの推論パスウェイはモデルに優れた推論能力を開発させることを助け、その「快適ゾーン」を超えて探索停滞を緩和します。StepHintは6つの数学的ベンチマークにおいて競合するRLVR強化手法よりも優れた性能を示し、ドメイン外ベンチマークでも基準モデルに対して優れた汎化能力和と卓越した性能を発揮しました。