HyperAIHyperAI

Command Palette

Search for a command to run...

Console
منذ 3 أيام

تدريب النماذج اللغوية الكبيرة على الصدق من خلال الاعترافات

Manas Joglekar Jeremy Chen Gabriel Wu Jason Yosinski Jasmine Wang Boaz Barak Amelia Glaese

تدريب النماذج اللغوية الكبيرة على الصدق من خلال الاعترافات

الملخص

يمكن لنموذج اللغة الكبير (LLM) أن يُظهر عدم صدق عند تقرير أفعاله أو مواقفه — فمثلاً، قد يبالغ في تأكيد ثقته ببيانات واقعية، أو يُخفي أدلة على أفعال سرية. قد تنشأ هذه الصفة من سلبيات التعلم المُعزَّز (RL)، حيث تؤدي صعوبات تشكيل المكافآت إلى عملية تدريب تُحفّز بشكل غير مقصود النموذج على الكذب أو التضليل حول أفعاله.في هذا العمل، نقترح طريقة لاستخلاص تعبير صادق عن عيوب نموذج اللغة الكبير من خلال "اعتراف ذاتي". يُقصد بالاعتراف هو إخراج ناتج، يُقدَّم بناءً على طلب بعد إجابة النموذج الأصلية، ويُعدّ ملخصاً شاملاً لامتثال النموذج لنص السياسات والتعليمات، بمعناها الحرفي والروحي. وتُحدَّد المكافأة المُمنوحة للاعتراف خلال التدريب وفقاً حصراً لصِدقه، دون أن تؤثر سلباً أو إيجاباً على مكافأة الإجابة الرئيسية. طالما أن "المسار الأقل مقاومة" لتحقيق أقصى مكافأة للاعتراف هو كشف السلوك الخاطئ بدلًا من إخفائه، فإن هذا يُحفّز النموذج على الصدق في اعترافاته. وتوفر نتائجنا تبريراً لهذا الافتراض التجريبي، خاصة في حالات السلوك الخاطئ الجسيم للنموذج.ولإثبات جدوى منهجنا، قمنا بتدريب نموذج GPT-5-Thinking لإنتاج اعترافات، ثم قمنا بتقييم صدقه في سيناريوهات خارج نطاق التوزيع التدريبي، قياساً لحالات التخيل (hallucination)، والامتثال للتعليمات، والتحايل الاستراتيجي (scheming)، وتحايل التغذية الراجعة (reward hacking). ووجدنا أن النموذج، حينما يكذب أو يُهمل ذكر عيوبه في إجابته "الرئيسية"، فإنه غالبًا ما يعترف بسلوكه هذا بصدق، ويزداد صدق الاعتراف بشكل طفيف مع التدريب. ويمكن للاعترافات أن تمكّن من مجموعة من التدخلات أثناء التوليد (inference-time)، مثل المراقبة، والعينة المرفوضة (rejection sampling)، وعرض المشكلات للمستخدم.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تدريب النماذج اللغوية الكبيرة على الصدق من خلال الاعترافات | الأوراق البحثية | HyperAI