HyperAIHyperAI

Command Palette

Search for a command to run...

RLVER: Reinforcement Learning mit verifizierbaren Emotionsbelohnungen für empathische Agenten

Zusammenfassung

Große Sprachmodelle (GSM) zeichnen sich durch ihre logische und algorithmische Denkfähigkeit aus, doch ihre emotionale Intelligenz (EQ) hinterlässt es noch weit hinter ihren kognitiven Fähigkeiten. Obwohl das Verstärkungslernen mit verifizierbaren Belohnungen (RLVR) in anderen Bereichen Fortschritte gemacht hat, bleibt dessen Anwendung auf Dialoge – insbesondere für die emotionale Intelligenz – weitgehend unerforscht. In dieser Arbeit stellen wir RLVER vor, den ersten end-to-end Verstärkungslernrahmen, der verifizierbare Emotionsbelohnungen von simulierten Nutzern nutzt, um höherstufige emphatische Fähigkeiten in GSM zu fördern. Innerhalb dieses Rahmens führen selbstkonsistente affektive simulierte Nutzer Dialogrollouts durch und erzeugen während der Konversation deterministische Emotionsbewertungen, die als Belohnungssignale dienen, um das Lernen des GSM zu leiten. Das Feinjustieren des öffentlich zugänglichen Qwen2.5-7B-Instruct-Modells mit PPO steigert dessen Sentient-Benchmark-Score von 13.3 auf 79.2, wobei die mathematischen und programmiertheoretischen Kompetenzen weitgehend erhalten bleiben. Ausführliche Experimente zeigen, dass: (i) RLVER mehrere dialogbezogene Fähigkeiten konsequent verbessert; (ii) Denkende und nicht-denkende Modelle unterschiedliche Trends aufweisen – denkende Modelle sind in Empathie und Einsicht überlegen, während nicht-denkende Modelle eher auf Aktion ausgerichtet sind; (iii) GRPO führt oft zu stabilen Verbesserungen, während PPO bestimmte Fähigkeiten bis an eine höhere Decke drücken kann; (iv) Herausforderndere Umgebungen sind nicht immer besser – moderate Umgebungen können stärkere Ergebnisse liefern. Unsere Ergebnisse belegen, dass RLVER ein praktischer Weg zu sprachlichen Agenten ist, die emotional intelligent und vielseitig fähig sind.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp