الملخص

النماذج اللغوية الكبيرة (LLMs) تتفوق في التفكير المنطقي والخوارزمي، ومع ذلك لا تزال ذكاءها العاطفي (EQ) يتأخر كثيرًا عن قدراتها المعرفية. بينما تقدمت التعلم التعزيزي من المكافآت القابلة للتحقق (RLVR) في مجالات أخرى، فإن تطبيقها على الحوار - خاصة لتعزيز الذكاء العاطفي - لا يزال محدودًا. في هذا البحث، نقدم RLVER، وهو أول إطار للتعلم التعزيزي من النهاية إلى النهاية يستخدم مكافآت عاطفية قابلة للتحقق من مستخدمين محاكاة لتطوير القدرات التعاطفية العليا في النماذج اللغوية الكبيرة. ضمن هذا الإطار، يقوم المستخدمون المحاكاة الذين يتمتعون بالتوافق الذاتي بإجراء حواريات وتقديم درجات عاطفية حاسمة خلال المحادثات، مما يعمل كإشارات مكافأة لتوجيه تعلم النموذج اللغوي الكبير. تعديل نموذج Qwen2.5-7B-Instruct المتاح للجمهور باستخدام PPO يزيد من درجة مؤشر Sentient-Benchmark من 13.3 إلى 79.2 مع الحفاظ بشكل كبير على الكفاءة الرياضية والبرمجة. كشفت التجارب الواسعة أن: (i) يحسن RLVER باستمرار العديد من القدرات الحوارية؛ (ii) تظهر النماذج التي تقوم بالتفكير والنماذج التي لا تقوم بالتفكير اتجاهات مختلفة - حيث تتفوق النماذج التي تقوم بالتفكير في التعاطف والبصيرة، بينما تفضل النماذج التي لا تقوم بالتفكير الأفعال؛ (iii) غالبًا ما يؤدي GRPO إلى مكاسب مستقرة، بينما يمكن أن يدفع PPO بعض القدرات إلى سقف أعلى؛ (iv) البيئات الأكثر تحديًا ليست دائمًا أفضل - فبيئات معتدلة يمكن أن تكون أكثر فعالية في تحقيق نتائج أقوى. تظهر نتائجنا أن RLVER هو طريق عملي نحو وكلاء لغويين ذوي ذكاء عاطفي وقدرات شاملة.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

RLVER: التعلم التعزيزي مع مكافآت العواطف القابلة للتحقق للوكلاء التعاطفيين

Peisong Wang Ruotian Ma Bang Zhang Xingyu Chen Zhiwei He Kang Luo Qingsong Lv Qingxuan Jiang Zheng Xie Shanyi Wang6 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

RLVER: التعلم التعزيزي مع مكافآت العواطف القابلة للتحقق للوكلاء التعاطفيين

Peisong Wang Ruotian Ma Bang Zhang Xingyu Chen Zhiwei He Kang Luo Qingsong Lv Qingxuan Jiang Zheng Xie Shanyi Wang6 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

RLVER: التعلم التعزيزي مع مكافآت العواطف القابلة للتحقق للوكلاء التعاطفيين

Peisong Wang Ruotian Ma Bang Zhang Xingyu Chen Zhiwei He Kang Luo Qingsong Lv Qingxuan Jiang Zheng Xie Shanyi Wang6 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Peisong Wang Ruotian Ma Bang Zhang Xingyu Chen Zhiwei He Kang Luo Qingsong Lv Qingxuan Jiang Zheng Xie Shanyi Wang

Peisong Wang Ruotian Ma Bang Zhang Xingyu Chen Zhiwei He Kang Luo Qingsong Lv Qingxuan Jiang Zheng Xie Shanyi Wang

Peisong Wang Ruotian Ma Bang Zhang Xingyu Chen Zhiwei He Kang Luo Qingsong Lv Qingxuan Jiang Zheng Xie Shanyi Wang