HyperAIHyperAI

Command Palette

Search for a command to run...

منذ شهر واحد

تنمو النماذج الكبيرة للتفكير بشكل أفضل من خلال التوافق من خلال التفكير الخاطئ

ShengYun Peng Eric Smith Ivan Evtimov Song Jiang Pin-Yu Chen Hongyuan Zhan Haozhu Wang Duen Horng Chau Mahesh Pasupuleti Jianfeng Chi

تنمو النماذج الكبيرة للتفكير بشكل أفضل من خلال التوافق من خلال التفكير الخاطئ

الملخص

تنمذ النماذج الكبيرة للاستدلال (LRMs) بإجراء عملية "تَفكير" من خلال إنتاج سلسلة من التفكير المُنظَّمة (CoT) قبل إصدار الإجابة النهائية، غير أن هذه النماذج ما زالت تعاني من قصور في القدرة على التفكير النقدي فيما يتعلق بتوافق السلامة، وتتعرض بسهولة للتحيُّز عندما يتم إدخال فرضية خاطئة في عملية التفكير. نقترح طريقة RECAP (التوافق الآمن المُحسَّن عبر التعبئة المعاكسة)، وهي منهجية مبنية على مبادئ التعلم بالتعزيز (RL) لمرحلة ما بعد التدريب، تُدرّب النماذج صراحةً على تجاوز المسارات الخاطئة في التفكير وإعادة توجيه الإجابات نحو إجابات آمنة ومفيدة. تعتمد RECAP على مزيج من تعبئيات CoT المُولَّدة صناعياً والمُعاكسة للاتجاه، وملفات تعليمية قياسية، ولا تتطلب أي تكاليف إضافية للتدريب أو تعديلات إضافية بخلاف التعلم بالتعزيز من خلال التغذية الراجعة البشرية (RLHF) القياسية، وتحسّن بشكل ملحوظ من مستوى السلامة ومقاومة الهجمات التحايلية، وتقلل من حالات الرفض المفرط، مع الحفاظ على القدرة الأساسية على الاستدلال – وكل ذلك مع الحفاظ على حدود استهلاك الرموز أثناء الاستنتاج. أظهر التحليل الشامل أن النماذج المدربة باستخدام RECAP تُظهر تفكيرًا ذاتيًا بشكل أسرع، وتبقى قوية أمام الهجمات المُتكيفة، وتُبقي على مستوى السلامة حتى بعد محاولات متكررة لفرض تغيير في مسار التفكير.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تنمو النماذج الكبيرة للتفكير بشكل أفضل من خلال التوافق من خلال التفكير الخاطئ | الأوراق البحثية | HyperAI