HyperAIHyperAI

Command Palette

Search for a command to run...

RLVER: التعلم التعزيزي مع مكافآت العواطف القابلة للتحقق للوكلاء التعاطفيين

الملخص

النماذج اللغوية الكبيرة (LLMs) تتفوق في التفكير المنطقي والخوارزمي، ومع ذلك لا تزال ذكاءها العاطفي (EQ) يتأخر كثيرًا عن قدراتها المعرفية. بينما تقدمت التعلم التعزيزي من المكافآت القابلة للتحقق (RLVR) في مجالات أخرى، فإن تطبيقها على الحوار - خاصة لتعزيز الذكاء العاطفي - لا يزال محدودًا. في هذا البحث، نقدم RLVER، وهو أول إطار للتعلم التعزيزي من النهاية إلى النهاية يستخدم مكافآت عاطفية قابلة للتحقق من مستخدمين محاكاة لتطوير القدرات التعاطفية العليا في النماذج اللغوية الكبيرة. ضمن هذا الإطار، يقوم المستخدمون المحاكاة الذين يتمتعون بالتوافق الذاتي بإجراء حواريات وتقديم درجات عاطفية حاسمة خلال المحادثات، مما يعمل كإشارات مكافأة لتوجيه تعلم النموذج اللغوي الكبير. تعديل نموذج Qwen2.5-7B-Instruct المتاح للجمهور باستخدام PPO يزيد من درجة مؤشر Sentient-Benchmark من 13.3 إلى 79.2 مع الحفاظ بشكل كبير على الكفاءة الرياضية والبرمجة. كشفت التجارب الواسعة أن: (i) يحسن RLVER باستمرار العديد من القدرات الحوارية؛ (ii) تظهر النماذج التي تقوم بالتفكير والنماذج التي لا تقوم بالتفكير اتجاهات مختلفة - حيث تتفوق النماذج التي تقوم بالتفكير في التعاطف والبصيرة، بينما تفضل النماذج التي لا تقوم بالتفكير الأفعال؛ (iii) غالبًا ما يؤدي GRPO إلى مكاسب مستقرة، بينما يمكن أن يدفع PPO بعض القدرات إلى سقف أعلى؛ (iv) البيئات الأكثر تحديًا ليست دائمًا أفضل - فبيئات معتدلة يمكن أن تكون أكثر فعالية في تحقيق نتائج أقوى. تظهر نتائجنا أن RLVER هو طريق عملي نحو وكلاء لغويين ذوي ذكاء عاطفي وقدرات شاملة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
RLVER: التعلم التعزيزي مع مكافآت العواطف القابلة للتحقق للوكلاء التعاطفيين | مستندات | HyperAI