Command Palette
Search for a command to run...
自信がすべて:言語モデルのFew-Shot RLファインチューニング
自信がすべて:言語モデルのFew-Shot RLファインチューニング
Li Pengyi Skripkin Matvey Zubrey Alexander Kuznetsov Andrey Oseledets Ivan
概要
大規模言語モデル(LLMs)は推論能力に優れていますが、学習後の調整はタスク目標との適合を確保するために依然として重要です。既存の強化学習(RL)手法はしばしば高コストの人間によるアノテーションや外部報酬モデルに依存しています。本研究では、自己確信を用いた強化学習(Reinforcement Learning via Self-Confidence: RLSC)を提案します。この手法はモデル自身の確信度を報酬信号として利用することで、ラベル、好みモデル、または報酬設計の必要性を排除します。Qwen2.5-Math-7Bに対して各問題につき16サンプルと10または20の学習ステップのみで適用した結果、RLSCはAIME2024で+13.4%、MATH500で+21.2%、Minerva Mathで+21.7%、Olympiadbenchで+20.8%、AMC23で+9.7%の精度向上を達成しました。RLSCは推論モデル向けの単純かつスケーラブルな学習後調整手法を提供し、少量のサンプルと未ラベル監督のみを必要とします。