HyperAIHyperAI

Command Palette

Search for a command to run...

FlowRL:大規模言語モデルの推論における報酬分布の一致

概要

本稿では、大規模言語モデル(LLM)の強化学習(RL)において、報酬を最大化するのではなく、報酬分布全体をフロー整合によって一致させる手法「FlowRL」を提案する。近年の先進的な推論モデルは、PPOやGRPOなど報酬最大化に基づく手法を採用しているが、これらは主要な報酬信号に過剰に最適化されがちであり、頻度は低いものの有効な推論経路を無視する傾向があるため、推論の多様性が低下する。これに対して、我々は学習可能な分割関数を用いてスカラー報酬を正規化された目標分布に変換し、ポリシー分布と目標分布との逆方向KLダイバージェンスを最小化するアプローチを採用する。このアイデアを実装したフロー整合最適化法により、多様な探索と汎化性の高い推論経路の生成を促進する。数学およびコード推論タスクにおける実験では、FlowRLは数学ベンチマークにおいてGRPO比で平均10.0%、PPO比で5.1%の顕著な性能向上を達成し、コード推論タスクにおいても一貫して優れた性能を発揮した。これらの結果は、LLMの強化学習における効率的な探索と多様な推論を実現する上で、報酬分布の一致が重要なステップであることを示している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています