HyperAIHyperAI

Command Palette

Search for a command to run...

CRISP: إلغاء تعلّم المفاهيم المستمرة من خلال مُشفّرات تلقائية نادرة

Tomer Ashuach Dana Arad Aaron Mueller Martin Tutek Yonatan Belinkov

الملخص

مع التوسع المتزايد في استخدام نماذج اللغة الكبيرة (LLMs) في التطبيقات الواقعية، أصبح الحاجة إلى إزالة المعرفة غير المرغوب فيها بشكل انتقائي مع الحفاظ على فعالية النموذج أمرًا بالغ الأهمية. وقد استكشفت الدراسات الحديثة استخدام المُشفّرات التلقائية النادرة (SAEs) لتنفيذ تدخلات دقيقة على السمات ذات المعنى الواحد. ومع ذلك، تعمل معظم الطرق القائمة على SAEs أثناء عملية الاستنتاج (inference)، ما لا يؤدي إلى تغييرات دائمة في معاملات النموذج. وقد يمكن للمُخترقين الذين يمتلكون صلاحية الوصول إلى المعاملات تجاوز هذه التدخلات أو عكسها. نقدّم CRISP، وهي طريقة فعّالة من حيث عدد المعاملات (parameter-efficient) لإزالة مفاهيم محددة بشكل دائم باستخدام SAEs. تُحدّد CRISP تلقائيًا السمات البارزة في SAE عبر طبقات متعددة، وتحفّز تقليل نشاطاتها. وقد أجرينا تجارب على نموذجين من نماذج اللغة الكبيرة، وأظهرت النتائج أن طريقة CRISP تتفوّق على الطرق السابقة في مهام إزالة المفاهيم الحساسة من الناحية الأمنية، وفقًا لاختبار WMDP، حيث تم إزالة بنجاح المعرفة الضارة مع الحفاظ على القدرات العامة والداخلية للنموذج. كما كشف التحليل على مستوى السمات أن CRISP تحقق فصلًا معنويًا متماسكًا بين المفاهيم المستهدفة والمعارف غير الضارة، ما يمكّن من كبح نشاط السمات المستهدفة بدقة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
CRISP: إلغاء تعلّم المفاهيم المستمرة من خلال مُشفّرات تلقائية نادرة | مستندات | HyperAI