HyperAI
منذ 2 أيام

RLVER: التعلم التعزيزي مع مكافآت العواطف القابلة للتحقق للوكلاء التعاطفيين

Peisong Wang; Ruotian Ma; Bang Zhang; Xingyu Chen; Zhiwei He; Kang Luo; Qingsong Lv; Qingxuan Jiang; Zheng Xie; Shanyi Wang; Yuan Li; Fanghua Ye; Jian Li; Yifan Yang; Zhaopeng Tu; Xiaolong Li
RLVER: التعلم التعزيزي مع مكافآت العواطف القابلة للتحقق للوكلاء التعاطفيين
الملخص

النماذج اللغوية الكبيرة (LLMs) تتفوق في التفكير المنطقي والخوارزمي، ومع ذلك لا تزال ذكاءها العاطفي (EQ) يتأخر كثيرًا عن قدراتها المعرفية. بينما تقدمت التعلم التعزيزي من المكافآت القابلة للتحقق (RLVR) في مجالات أخرى، فإن تطبيقها على الحوار - خاصة لتعزيز الذكاء العاطفي - لا يزال محدودًا. في هذا البحث، نقدم RLVER، وهو أول إطار للتعلم التعزيزي من النهاية إلى النهاية يستخدم مكافآت عاطفية قابلة للتحقق من مستخدمين محاكاة لتطوير القدرات التعاطفية العليا في النماذج اللغوية الكبيرة. ضمن هذا الإطار، يقوم المستخدمون المحاكاة الذين يتمتعون بالتوافق الذاتي بإجراء حواريات وتقديم درجات عاطفية حاسمة خلال المحادثات، مما يعمل كإشارات مكافأة لتوجيه تعلم النموذج اللغوي الكبير. تعديل نموذج Qwen2.5-7B-Instruct المتاح للجمهور باستخدام PPO يزيد من درجة مؤشر Sentient-Benchmark من 13.3 إلى 79.2 مع الحفاظ بشكل كبير على الكفاءة الرياضية والبرمجة. كشفت التجارب الواسعة أن: (i) يحسن RLVER باستمرار العديد من القدرات الحوارية؛ (ii) تظهر النماذج التي تقوم بالتفكير والنماذج التي لا تقوم بالتفكير اتجاهات مختلفة - حيث تتفوق النماذج التي تقوم بالتفكير في التعاطف والبصيرة، بينما تفضل النماذج التي لا تقوم بالتفكير الأفعال؛ (iii) غالبًا ما يؤدي GRPO إلى مكاسب مستقرة، بينما يمكن أن يدفع PPO بعض القدرات إلى سقف أعلى؛ (iv) البيئات الأكثر تحديًا ليست دائمًا أفضل - فبيئات معتدلة يمكن أن تكون أكثر فعالية في تحقيق نتائج أقوى. تظهر نتائجنا أن RLVER هو طريق عملي نحو وكلاء لغويين ذوي ذكاء عاطفي وقدرات شاملة.