HyperAIHyperAI
منذ يوم واحد

CRISP: إلغاء تعلّم المفاهيم المستمرة من خلال مُشفّرات تلقائية نادرة

Tomer Ashuach, Dana Arad, Aaron Mueller, Martin Tutek, Yonatan Belinkov
CRISP: إلغاء تعلّم المفاهيم المستمرة من خلال مُشفّرات تلقائية نادرة
الملخص

مع التوسع المتزايد في استخدام نماذج اللغة الكبيرة (LLMs) في التطبيقات الواقعية، أصبح الحاجة إلى إزالة المعرفة غير المرغوب فيها بشكل انتقائي مع الحفاظ على فعالية النموذج أمرًا بالغ الأهمية. وقد استكشفت الدراسات الحديثة استخدام المُشفّرات التلقائية النادرة (SAEs) لتنفيذ تدخلات دقيقة على السمات ذات المعنى الواحد. ومع ذلك، تعمل معظم الطرق القائمة على SAEs أثناء عملية الاستنتاج (inference)، ما لا يؤدي إلى تغييرات دائمة في معاملات النموذج. وقد يمكن للمُخترقين الذين يمتلكون صلاحية الوصول إلى المعاملات تجاوز هذه التدخلات أو عكسها. نقدّم CRISP، وهي طريقة فعّالة من حيث عدد المعاملات (parameter-efficient) لإزالة مفاهيم محددة بشكل دائم باستخدام SAEs. تُحدّد CRISP تلقائيًا السمات البارزة في SAE عبر طبقات متعددة، وتحفّز تقليل نشاطاتها. وقد أجرينا تجارب على نموذجين من نماذج اللغة الكبيرة، وأظهرت النتائج أن طريقة CRISP تتفوّق على الطرق السابقة في مهام إزالة المفاهيم الحساسة من الناحية الأمنية، وفقًا لاختبار WMDP، حيث تم إزالة بنجاح المعرفة الضارة مع الحفاظ على القدرات العامة والداخلية للنموذج. كما كشف التحليل على مستوى السمات أن CRISP تحقق فصلًا معنويًا متماسكًا بين المفاهيم المستهدفة والمعارف غير الضارة، ما يمكّن من كبح نشاط السمات المستهدفة بدقة.