RLVER: 검증 가능한 감정 보상으로 공감하는 에이전트를 위한 강화 학습

대형 언어 모델(LLM)은 논리적이고 알고리즘적인 추론 능력에서 뛰어나지만, 감정 지능(EQ)은 여전히 인지 능력에 비해 크게 뒤처져 있습니다. 검증 가능한 보상(reward)을 활용한 강화 학습(RLVR)이 다른 영역에서 발전했음에도 불구하고, 대화, 특히 감정 지능에 대한 그 응용은 아직 충분히 탐구되지 않았습니다. 본 연구에서는 RLVER를 소개합니다. 이는 시뮬레이션된 사용자로부터 얻은 검증 가능한 감정 보상을 활용하여 LLM의 고차원적인 공감 능력을 키우는 첫 번째 종단 간(end-to-end) 강화 학습 프레임워크입니다. 이 프레임워크 내에서 자기 일관성을 유지하는 감성 시뮬레이션 사용자가 대화 롤아웃(dialogue rollouts)을 수행하고, 대화 중에 결정론적인 감정 점수(deterministic emotion scores)를 생성하여 LLM의 학습을 안내하는 보상 신호(reward signals)로 작용합니다. 공개된 Qwen2.5-7B-Instruct 모델을 PPO로 미세 조정(fine-tuning)하면 Sentient-Benchmark 점수가 13.3에서 79.2로 상승하면서 수학적 및 코딩 능력을 대부분 유지할 수 있습니다. 광범위한 실험 결과는 다음과 같은 사실을 밝혔습니다: (i) RLVER는 여러 대화 기능을 일관되게 개선합니다; (ii) 사고(thinking) 모델과 비사고(non-thinking) 모델은 각기 다른 경향성을 보입니다—사고 모델은 공감과 통찰력에서 뛰어나며, 비사고 모델은 행동(action)을 선호합니다; (iii) GRPO는 종종 안정적인 성장을 가져오지만, PPO는 특정 기능들을 더 높은 수준으로 끌어올릴 수 있습니다; (iv) 더 어려운 환경이 항상 좋은 것은 아닙니다—적절한 수준의 환경이 더 강한 결과를 가져올 수 있습니다. 우리의 결과는 RLVER가 감성적으로 지능적이면서 다양한 능력을 갖춘 언어 에이전트를 실현하기 위한 실용적인 방법이라는 것을 보여줍니다.