HyperAIHyperAI

Command Palette

Search for a command to run...

RLVER: 強化学習による検証可能な感情報酬を用いた共感型エージェント

概要

大規模言語モデル(LLMs)は論理的およびアルゴリズミックな推論に優れていますが、感情知能(EQ)はまだ認知能力に大きく遅れをとっています。検証可能な報酬に基づく強化学習(RLVR)は他の分野で進展していますが、対話における特に感情知能への応用は未だ十分に研究されていません。本研究では、RLVERという新しいエンドツーエンドの強化学習フレームワークを導入します。これは、シミュレートされたユーザーから得られる検証可能な感情報酬を利用して、大規模言語モデルの高次共感能力を育成する初めてのフレームワークです。このフレームワーク内では、自己一貫性のある感情的なシミュレートユーザーが対話ロールアウトを行い、会話中に確定的な感情スコアを生成し、報酬信号としてLLMの学習をガイドします。公開されているQwen2.5-7B-InstructモデルをPPOで微調整することで、Sentient-Benchmarkスコアが13.3から79.2へと大幅に向上し、数学的およびプログラミング的能力を大部分保持したままです。広範な実験により以下のことが明らかになりました:(i) RLVERは複数の対話能力を一貫して向上させる;(ii) 思考型モデルと非思考型モデルには異なる傾向が見られる—思考型モデルは共感と洞察力に優れ、非思考型モデルは行動指向である;(iii) GRPOはしばしば安定した改善をもたらす一方で、PPOは特定の能力をより高いレベルまで引き上げることが可能である;(iv) より困難な環境が常に良いわけではなく、適度な難易度の環境でも強い成果を得ることができる。本研究の結果は、RLVERが感情的に知性的で多様な能力を持つ言語エージェントへの現実的な道筋であることを示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
RLVER: 強化学習による検証可能な感情報酬を用いた共感型エージェント | 記事 | HyperAI超神経