HyperAI
vor 2 Tagen

RLVER: Reinforcement Learning mit verifizierbaren Emotionsbelohnungen für empathische Agenten

Peisong Wang; Ruotian Ma; Bang Zhang; Xingyu Chen; Zhiwei He; Kang Luo; Qingsong Lv; Qingxuan Jiang; Zheng Xie; Shanyi Wang; Yuan Li; Fanghua Ye; Jian Li; Yifan Yang; Zhaopeng Tu; Xiaolong Li
RLVER: Reinforcement Learning mit verifizierbaren Emotionsbelohnungen für empathische Agenten
Abstract

Große Sprachmodelle (GSM) zeichnen sich durch ihre logische und algorithmische Denkfähigkeit aus, doch ihre emotionale Intelligenz (EQ) hinterlässt es noch weit hinter ihren kognitiven Fähigkeiten. Obwohl das Verstärkungslernen mit verifizierbaren Belohnungen (RLVR) in anderen Bereichen Fortschritte gemacht hat, bleibt dessen Anwendung auf Dialoge – insbesondere für die emotionale Intelligenz – weitgehend unerforscht. In dieser Arbeit stellen wir RLVER vor, den ersten end-to-end Verstärkungslernrahmen, der verifizierbare Emotionsbelohnungen von simulierten Nutzern nutzt, um höherstufige emphatische Fähigkeiten in GSM zu fördern. Innerhalb dieses Rahmens führen selbstkonsistente affektive simulierte Nutzer Dialogrollouts durch und erzeugen während der Konversation deterministische Emotionsbewertungen, die als Belohnungssignale dienen, um das Lernen des GSM zu leiten. Das Feinjustieren des öffentlich zugänglichen Qwen2.5-7B-Instruct-Modells mit PPO steigert dessen Sentient-Benchmark-Score von 13.3 auf 79.2, wobei die mathematischen und programmiertheoretischen Kompetenzen weitgehend erhalten bleiben. Ausführliche Experimente zeigen, dass: (i) RLVER mehrere dialogbezogene Fähigkeiten konsequent verbessert; (ii) Denkende und nicht-denkende Modelle unterschiedliche Trends aufweisen – denkende Modelle sind in Empathie und Einsicht überlegen, während nicht-denkende Modelle eher auf Aktion ausgerichtet sind; (iii) GRPO führt oft zu stabilen Verbesserungen, während PPO bestimmte Fähigkeiten bis an eine höhere Decke drücken kann; (iv) Herausforderndere Umgebungen sind nicht immer besser – moderate Umgebungen können stärkere Ergebnisse liefern. Unsere Ergebnisse belegen, dass RLVER ein praktischer Weg zu sprachlichen Agenten ist, die emotional intelligent und vielseitig fähig sind.