HyperAI
il y a 2 jours

RLVER : Apprentissage par renforcement avec des récompenses émotionnelles vérifiables pour les agents empathiques

Peisong Wang; Ruotian Ma; Bang Zhang; Xingyu Chen; Zhiwei He; Kang Luo; Qingsong Lv; Qingxuan Jiang; Zheng Xie; Shanyi Wang; Yuan Li; Fanghua Ye; Jian Li; Yifan Yang; Zhaopeng Tu; Xiaolong Li
RLVER : Apprentissage par renforcement avec des récompenses émotionnelles vérifiables pour les agents empathiques
Résumé

Les grands modèles de langage (LLMs) excellent dans le raisonnement logique et algorithmique, mais leur intelligence émotionnelle (EQ) reste largement en retard par rapport à leurs capacités cognitives. Bien que l'apprentissage par renforcement à partir de récompenses vérifiables (RLVR) ait progressé dans d'autres domaines, son application au dialogue, en particulier pour l'intelligence émotionnelle, reste sous-exploitée. Dans cette étude, nous introduisons RLVER, le premier cadre d'apprentissage par renforcement de bout en bout qui utilise des récompenses émotionnelles vérifiables provenant d'utilisateurs simulés pour développer des capacités empathiques de niveau supérieur dans les LLMs. Au sein de ce cadre, des utilisateurs simulés affectivement cohérents participent à des séquences de dialogue et produisent des scores émotionnels déterministes lors des conversations, servant de signaux de récompense pour guider l'apprentissage du modèle de langage. Le réglage fin du modèle Qwen2.5-7B-Instruct publiquement disponible avec PPO améliore son score Sentient-Benchmark de 13,3 à 79,2 tout en conservant largement ses compétences en mathématiques et en programmation. De nombreuses expériences montrent que : (i) RLVER améliore constamment plusieurs capacités dialogiques ; (ii) les modèles pensants et non-pensants présentent des tendances distinctes--les modèles pensants excellemment en empathie et en intuition, tandis que les modèles non-pensants privilégient l'action ; (iii) GRPO offre souvent des gains stables, tandis que PPO peut pousser certaines capacités à un plafond plus élevé ; (iv) des environnements plus complexes ne sont pas toujours meilleurs--des environnements modérés peuvent produire des résultats plus forts. Nos résultats démontrent que RLVER est une voie pratique vers des agents linguistiques dotés d'une intelligence émotionnelle et capables sur un large spectre.