登る過程が頂上よりも深い知恵を刻む:学習におけるノイジーな報酬について
Lv, Ang ; Xie, Ruobing ; Sun, Xingwu ; Kang, Zhanhui ; Yan, Rui
公開日: 6/1/2025

要約
最近の研究では、大規模言語モデル(LLM)の強化学習(RL)による推論後の訓練について、数学問題の解法など、正確に検証および報酬を与えることができるタスクに焦点を当てることが一般的です。一方、当研究では、実世界のシナリオにおいてLLMの推論後の訓練に使用される報酬モデルにおける報酬ノイズの影響を調査しています。我々は、LLMが大幅な報酬ノイズに対して強い堅牢性を示すことを発見しました。例えば、数学タスクで報酬関数の出力を手動で40%反転させても、Qwen-2.5-7Bモデルは急速な収束を達成し、数学タスクでの性能が5%から72%向上しました。これはノイズなしの報酬で訓練されたモデルが達成した75%の精度と比較されます。驚くべきことに、答えの正しさを検証せずに、「まず、私は〜する必要があります」などの重要な推論フレーズ(これを推論パターン報酬【RPR】と呼ぶ)のみに報酬を与えることで、Qwen-2.5-7Bモデルは最大70%以上の精度を達成し、厳密な正解検証と正確な報酬を使用して訓練されたモデルと同等の下流性能を示しました。推論プロセスの重要性が最終結果よりも高いことを認識し、我々はRPRとノイジーリワードモデルを組み合わせました。RPRはノイジーリワードモデルの調整に役立ち、潜在的な偽陰性を軽減し、オープンエンドタスクにおけるLLMの性能向上に寄与しました。これらの知見は、事前学習段階でのモデルの基礎能力向上の重要性を示唆するとともに、推論後の訓練技術の進歩に対する洞察も提供しています。当研究で使用したコードとスクリプトは https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason で公開されています。