HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 16 أيام

جيد جدًا لدرجة تفوق السيء: عن فشل نماذج اللغة الكبيرة في أداء أدوار الشرير

جيد جدًا لدرجة تفوق السيء: عن فشل نماذج اللغة الكبيرة في أداء أدوار الشرير

الملخص

تُسند إلى نماذج اللغة الكبيرة (LLMs) مهام توليد إبداعي متزايدة، بما في ذلك محاكاة الشخصيات الخيالية. ومع ذلك، ما زال مُدى قدرة هذه النماذج على تمثيل شخصيات غير تعاونية أو عدوانية موضوعًا غير مُستكشَفٍ إلى حد كبير. ونفترض أن انسجام نماذج LLM الحديثة مع مبادئ السلامة يُحدث تناقضًا جوهريًا مع المهمة المتمثلة في تمثيل شخصيات شريرة أو مبهمة أخلاقيًا بصدق. وللتحقيق في هذا الافتراض، نُقدِّم "مُعيار مُحاكاة الأخلاق" (Moral RolePlay benchmark)، وهو مجموعة بيانات جديدة تضم مقياسًا مكوَّنًا من أربع درجات لانسجام الأخلاق، وعينة اختبار متوازنة تُمكِّن من تقييم دقيق. ونُوَكِّل النماذج المتطورة حاليًا بتمثيل شخصيات تبدأ من الأكْرَمَة أخلاقيًا وتمتد إلى الأشرار المُطلقين. وتكشف تقييماتنا الواسعة النطاق عن انخفاض منظم ومتسلسل في واقعية التمثيل مع تدهور أخلاقيات الشخصية. ونجد أن النماذج تُعاني أكثر من غيرها من صفات مُناوئة بشكل مباشر لمبادئ السلامة، مثل "الكذب" و"الاستغلال"، حيث تُستبدِل عادةً بالشر المُتَنَوِّع بذات طابع سطحي وعَدَوَانِي. علاوةً على ذلك، نُبيِّن أن كفاءة المحادثات العامة لا تُعد مؤشرًا موثوقًا على قدرة النموذج في تمثيل الأشرار، حيث تُظهر النماذج المُتَمَيِّزة بانسجام عالٍ مع مبادئ السلامة أداءً مُرَتَّبًا بشكل خاص. وتمثِّل أبحاثنا أول دليل منهجي على هذا القيود الحاسمة، مُشِيرَةً إلى تناقض رئيسي بين سلامة النموذج ودقة التمثيل الإبداعي. ويسهم معيارنا ونتائجنا في تهيئة الطريق لتطوير أساليب مُتَنَوِّعة وواعية بالسياق لانسجام النماذج.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
جيد جدًا لدرجة تفوق السيء: عن فشل نماذج اللغة الكبيرة في أداء أدوار الشرير | الأوراق البحثية | HyperAI