5日前

プロセスマイニングを用いた推論対応型GRPO

Taekhyun Park Yongjae Lee Hyerim Bae

要約

強化学習（RL）に基づく後処理は、大規模推論モデル（LRM）における多段階推論の実現に不可欠であるが、現在の報酬設計は一般的に結果志向的である。本研究では、推論プロセスに関する情報を標準的な回答・形式報酬に加えることで、推論に配慮したグループ相対的方策最適化（GRPO）であるPM4GRPOを提案する。これにより、プロセスマイニング技術を活用し、ポリシーモデルの推論が事前学習済みの教師モデルとどれだけ一致しているかを測るスカラー値の適合性報酬を計算する。5つのベンチマークにおける実証結果から、PM4GRPOは従来のGRPOベースの後処理手法を顕著に上回ることが示された。これらの結果は、推論に配慮したGRPOにおいてプロセスマイニングを活用することで、ポリシーモデルの推論能力が効果的に向上することを示している。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

プロセスマイニングを用いた推論対応型GRPO

Taekhyun Park Yongjae Lee Hyerim Bae

要約

AI で AI を構築

Hyper Newsletters