Command Palette
Search for a command to run...
Taekhyun Park Yongjae Lee Hyerim Bae

要約
強化学習(RL)に基づく後処理は、大規模推論モデル(LRM)における多段階推論の実現に不可欠であるが、現在の報酬設計は一般的に結果志向的である。本研究では、推論プロセスに関する情報を標準的な回答・形式報酬に加えることで、推論に配慮したグループ相対的方策最適化(GRPO)であるPM4GRPOを提案する。これにより、プロセスマイニング技術を活用し、ポリシーモデルの推論が事前学習済みの教師モデルとどれだけ一致しているかを測るスカラー値の適合性報酬を計算する。5つのベンチマークにおける実証結果から、PM4GRPOは従来のGRPOベースの後処理手法を顕著に上回ることが示された。これらの結果は、推論に配慮したGRPOにおいてプロセスマイニングを活用することで、ポリシーモデルの推論能力が効果的に向上することを示している。