Command Palette
Search for a command to run...
Jinghao Zhang Naishan Zheng Ruilin Li Dongzhou Cheng Zheming Liang Feng Zhao Jiaqi Wang

要約
最近、検証可能な報酬を用いた強化学習(Reinforcement Learning with Verifiable Rewards: RLVR)は、大規模言語モデル(Large Language Models: LLMs)の推論能力を向上させる有望な枠組みとして注目されている。しかし、二値の検証に基づいて最適化された方策は、推論経路における潜在的な価値ある探索を無視する傾向がある。ゴールデンプロセス報酬モデル(Golden Process Reward Models: PRMs)の高コストなアノテーションを考慮すると、最近の研究では、プロセストークンの報酬形状づけに補助信号を用いるアプローチが試みられている。これには、ロジット空間から得られるエントロピーおよび尤度が含まれる。本研究では、潜在空間から導出されたフロー報酬を用いたRLVRの形状づけに関する新しい視点を提示し、RLFR(Reinforcement Learning with Flow Rewards)を提案する。RLFRでは、オフポリシーの高品質データまたはオンポリシーの拒否サンプリングデータからモデルの潜在変数のフロー場を構築し、その中における方策の潜在変数の速度偏差を定量化して報酬信号として用いる。本研究は、良好に構築されたフロー場が報酬信号収集に適した環境であることを初めて示し、表現力豊かな潜在空間が依然として十分に活用されていないことを強調している。さらに、RLFRは任意のオフポリシー専門家データを参照として圧縮し、報酬信号を構成可能であることを示しており、コンテキスト理解において、隠れ状態内に効率的に圧縮された文脈依存性が用いられていること、個々のトークンレベルの意味表現ではなく、それらが示す文脈的関係性が重要であることを明らかにしている。言語およびマルチモーダル推論ベンチマークにおける実験結果から、フロー報酬の信頼性が確認され、補助信号を用いた報酬形状づけの有望なパラダイムであることが示唆された。