HyperAI超神经
2 days ago

RLVER:具有可验证情感奖励的强化学习用于共情代理

Peisong Wang; Ruotian Ma; Bang Zhang; Xingyu Chen; Zhiwei He; Kang Luo; Qingsong Lv; Qingxuan Jiang; Zheng Xie; Shanyi Wang; Yuan Li; Fanghua Ye; Jian Li; Yifan Yang; Zhaopeng Tu; Xiaolong Li
RLVER:具有可验证情感奖励的强化学习用于共情代理
摘要

大型语言模型(LLMs)在逻辑和算法推理方面表现出色,但其情感智能(EQ)仍远落后于认知能力。尽管基于可验证奖励的强化学习(RLVR)在其他领域取得了进展,但在对话领域,尤其是情感智能方面的应用仍然较少探索。在这项研究中,我们引入了RLVER,这是首个端到端的强化学习框架,通过利用模拟用户提供的可验证情感奖励来培养LLMs的高层次共情能力。在这个框架内,自洽的情感模拟用户参与对话演练,并在对话过程中生成确定性的情感评分,作为奖励信号指导LLM的学习。使用PPO对公开可用的Qwen2.5-7B-Instruct模型进行微调后,其Sentient-Benchmark得分从13.3提升至79.2,同时基本保留了数学和编程能力。广泛的实验表明:(i) RLVER一致提升了多项对话能力;(ii) 思考型和非思考型模型表现出不同的趋势——思考型模型在共情和洞察力方面表现优异,而非思考型模型则更倾向于行动;(iii) GRPO通常能带来稳定的提升,而PPO可以将某些能力推向更高的上限;(iv) 更具挑战性的环境并不总是更好——适度的环境往往能产生更强的效果。我们的结果表明,RLVER是实现情感智能和多功能语言代理的一条实用途径。