vor 7 Monaten

Peisong Wang Ruotian Ma Bang Zhang Xingyu Chen Zhiwei He Kang Luo Qingsong Lv Qingxuan Jiang Zheng Xie Shanyi Wang

Zusammenfassung

Große Sprachmodelle (GSM) zeichnen sich durch ihre logische und algorithmische Denkfähigkeit aus, doch ihre emotionale Intelligenz (EQ) hinterlässt es noch weit hinter ihren kognitiven Fähigkeiten. Obwohl das Verstärkungslernen mit verifizierbaren Belohnungen (RLVR) in anderen Bereichen Fortschritte gemacht hat, bleibt dessen Anwendung auf Dialoge – insbesondere für die emotionale Intelligenz – weitgehend unerforscht. In dieser Arbeit stellen wir RLVER vor, den ersten end-to-end Verstärkungslernrahmen, der verifizierbare Emotionsbelohnungen von simulierten Nutzern nutzt, um höherstufige emphatische Fähigkeiten in GSM zu fördern. Innerhalb dieses Rahmens führen selbstkonsistente affektive simulierte Nutzer Dialogrollouts durch und erzeugen während der Konversation deterministische Emotionsbewertungen, die als Belohnungssignale dienen, um das Lernen des GSM zu leiten. Das Feinjustieren des öffentlich zugänglichen Qwen2.5-7B-Instruct-Modells mit PPO steigert dessen Sentient-Benchmark-Score von 13.3 auf 79.2, wobei die mathematischen und programmiertheoretischen Kompetenzen weitgehend erhalten bleiben. Ausführliche Experimente zeigen, dass: (i) RLVER mehrere dialogbezogene Fähigkeiten konsequent verbessert; (ii) Denkende und nicht-denkende Modelle unterschiedliche Trends aufweisen – denkende Modelle sind in Empathie und Einsicht überlegen, während nicht-denkende Modelle eher auf Aktion ausgerichtet sind; (iii) GRPO führt oft zu stabilen Verbesserungen, während PPO bestimmte Fähigkeiten bis an eine höhere Decke drücken kann; (iv) Herausforderndere Umgebungen sind nicht immer besser – moderate Umgebungen können stärkere Ergebnisse liefern. Unsere Ergebnisse belegen, dass RLVER ein praktischer Weg zu sprachlichen Agenten ist, die emotional intelligent und vielseitig fähig sind.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 7 Monaten

Benchmarks

Agent

Präferenzmodellierung

KI-Infrastruktur

Ansatz/Rahmenwerk

Natürliche Sprachverarbeitung

Aufgabe

Peisong Wang Ruotian Ma Bang Zhang Xingyu Chen Zhiwei He Kang Luo Qingsong Lv Qingxuan Jiang Zheng Xie Shanyi Wang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 7 Monaten

Benchmarks

Agent

Präferenzmodellierung

KI-Infrastruktur

Ansatz/Rahmenwerk

Natürliche Sprachverarbeitung

Aufgabe

Peisong Wang Ruotian Ma Bang Zhang Xingyu Chen Zhiwei He Kang Luo Qingsong Lv Qingxuan Jiang Zheng Xie Shanyi Wang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

RLVER: Reinforcement Learning mit verifizierbaren Emotionsbelohnungen für empathische Agenten

Peisong Wang Ruotian Ma Bang Zhang Xingyu Chen Zhiwei He Kang Luo Qingsong Lv Qingxuan Jiang Zheng Xie Shanyi Wang6 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

RLVER: Reinforcement Learning mit verifizierbaren Emotionsbelohnungen für empathische Agenten

Peisong Wang Ruotian Ma Bang Zhang Xingyu Chen Zhiwei He Kang Luo Qingsong Lv Qingxuan Jiang Zheng Xie Shanyi Wang6 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

RLVER: Reinforcement Learning mit verifizierbaren Emotionsbelohnungen für empathische Agenten

Peisong Wang Ruotian Ma Bang Zhang Xingyu Chen Zhiwei He Kang Luo Qingsong Lv Qingxuan Jiang Zheng Xie Shanyi Wang6 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Peisong Wang Ruotian Ma Bang Zhang Xingyu Chen Zhiwei He Kang Luo Qingsong Lv Qingxuan Jiang Zheng Xie Shanyi Wang

Peisong Wang Ruotian Ma Bang Zhang Xingyu Chen Zhiwei He Kang Luo Qingsong Lv Qingxuan Jiang Zheng Xie Shanyi Wang

Peisong Wang Ruotian Ma Bang Zhang Xingyu Chen Zhiwei He Kang Luo Qingsong Lv Qingxuan Jiang Zheng Xie Shanyi Wang