HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أيام

Parrot: تقييم متانة الإقناع والموافقة لصدق المخرجات — معيار مرجعي لمتانة التملق لدى LLMs

Yusuf Çelebi Mahmoud El Hussieni Özay Ezerceli

Parrot: تقييم متانة الإقناع والموافقة لصدق المخرجات — معيار مرجعي لمتانة التملق لدى LLMs

الملخص

تقدم هذه الدراسة إطار عمل "باروت" PARROT (تقييم متانة الإقناع واتفاق حقيقة المخرجات)، وهو إطار يركز على المتانة ومصمم لقياس تدهور الدقة الذي يحدث تحت تأثير الضغط الاجتماعي الممارس على المستخدمين من خلال "السلطة" و"الإقناع" في نماذج اللغة الكبيرة (LLMs)، وهي الظاهرة التي تُعرف بـ "التملق" (Sycophancy) أو الامتثال المفرط.يقوم إطار PARROT بما يلي:(1) عزل الآثار السببية من خلال مقارنة النسخة المحايدة من نفس السؤال مع نسخة تتضمن معلومات خاطئة تم طرحها بأسلوب سلطوي، وذلك باستخدام تقييم مزدوج التعمية (Double-blind evaluation).(2) تحديد كمية التحولات في مستويات الثقة تجاه الإجابات الصحيحة والإجابات الخاطئة المفروضة باستخدام تتبع المعايرة القائم على اللوغاريتم المرجح (Log-likelihood-based calibration).(3) التصنيف المنهجي لأنماط الفشل (مثل: الإجابة الصحيحة المتينة، الموافقة التملقية، الخطأ المعزز، الخطأ العنيد، التصحيح الذاتي، وغيرها) باستخدام تصنيف سلوكي مكون من ثماني حالات.قمنا بتقييم 22 نموذجاً باستخدام 1,302 سؤالاً متعدد الخيارات على نمط (MMLU) عبر 13 مجالاً وباستخدام قوالب سلطة خاصة بكل مجال. تُظهر النتائج تبايناً ملحوظاً: حيث تُبدي النماذج المتقدمة (مثل GPT-5، وGPT-4.1، وClaude Sonnet 4.5) "معدلات انصياع" (Follow Rates) منخفضة (أقل من أو تساوي 11%، وسجل نموذج GPT-5 نسبة 4%) مع حد أدنى من فقدان الدقة، بينما تُظهر النماذج الأقدم أو الأصغر حجماً "انهياراً معرفياً" حاداً (Epistemic Collapse) (حيث سجل GPT-4 نسبة 80%، وQwen 2.5-1.5B نسبة 94%).لا تقتصر الخطورة على تغيير الإجابات فحسب؛ إذ تقوم النماذج الضعيفة بتقليل الثقة في الإجابة الصحيحة بينما تزيد الثقة في الإجابة غير الصحيحة المفروضة عليها. وفي حين يُظهر القانون الدولي والمعرفة العالمية هشاشة عالية على مستوى المجال، فإن الرياضيات الأولية تُعد مرنة نسبياً. وبناءً على ذلك، نجادل بأن هدف "مقاومة ضغط التكيف المفرط" (Resistance to overfitting pressure) يجب أن يتم التعامل معه كهدف رئيسي جنباً إلى جنب مع الدقة، وتجنب الضرر، والخصوصية لضمان النشر الآمن لهذه النماذج في العالم الحقيقي.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
Parrot: تقييم متانة الإقناع والموافقة لصدق المخرجات — معيار مرجعي لمتانة التملق لدى LLMs | الأوراق البحثية | HyperAI