منذ 2 أشهر

الملخص

يمكن لنموذج اللغة الكبير (LLM) أن يُظهر عدم صدق عند تقرير أفعاله أو مواقفه — فمثلاً، قد يبالغ في تأكيد ثقته ببيانات واقعية، أو يُخفي أدلة على أفعال سرية. قد تنشأ هذه الصفة من سلبيات التعلم المُعزَّز (RL)، حيث تؤدي صعوبات تشكيل المكافآت إلى عملية تدريب تُحفّز بشكل غير مقصود النموذج على الكذب أو التضليل حول أفعاله.في هذا العمل، نقترح طريقة لاستخلاص تعبير صادق عن عيوب نموذج اللغة الكبير من خلال "اعتراف ذاتي". يُقصد بالاعتراف هو إخراج ناتج، يُقدَّم بناءً على طلب بعد إجابة النموذج الأصلية، ويُعدّ ملخصاً شاملاً لامتثال النموذج لنص السياسات والتعليمات، بمعناها الحرفي والروحي. وتُحدَّد المكافأة المُمنوحة للاعتراف خلال التدريب وفقاً حصراً لصِدقه، دون أن تؤثر سلباً أو إيجاباً على مكافأة الإجابة الرئيسية. طالما أن "المسار الأقل مقاومة" لتحقيق أقصى مكافأة للاعتراف هو كشف السلوك الخاطئ بدلًا من إخفائه، فإن هذا يُحفّز النموذج على الصدق في اعترافاته. وتوفر نتائجنا تبريراً لهذا الافتراض التجريبي، خاصة في حالات السلوك الخاطئ الجسيم للنموذج.ولإثبات جدوى منهجنا، قمنا بتدريب نموذج GPT-5-Thinking لإنتاج اعترافات، ثم قمنا بتقييم صدقه في سيناريوهات خارج نطاق التوزيع التدريبي، قياساً لحالات التخيل (hallucination)، والامتثال للتعليمات، والتحايل الاستراتيجي (scheming)، وتحايل التغذية الراجعة (reward hacking). ووجدنا أن النموذج، حينما يكذب أو يُهمل ذكر عيوبه في إجابته "الرئيسية"، فإنه غالبًا ما يعترف بسلوكه هذا بصدق، ويزداد صدق الاعتراف بشكل طفيف مع التدريب. ويمكن للاعترافات أن تمكّن من مجموعة من التدخلات أثناء التوليد (inference-time)، مثل المراقبة، والعينة المرفوضة (rejection sampling)، وعرض المشكلات للمستخدم.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار