منذ 9 أيام

إعادة التعلم المعرفي لتقليل المخاطر الخاصة بالخصوصية في نماذج اللغة

Joel Jang, Dongkeun Yoon, Sohee Yang, Sungmin Cha, Moontae Lee, Lajanugen Logeswaran, Minjoon Seo

الملخص

تُخزن نماذج اللغة المُدرَّبة مسبقًا (LMs) كمًّا هائلًا من المعرفة أثناء التدريب الأولي، بما في ذلك معلومات قد تنتهك خصوصية الأشخاص وهمومهم الشخصية. ركّزت الدراسات السابقة التي تتناول قضايا الخصوصية في نماذج اللغة بشكل رئيسي على معالجة البيانات المُقدَّمة مسبقًا وطرق الخصوصية التفاضلية، وكلا النوعين يتطلبان إعادة تدريب النموذج الأساسي. نقترح هنا مفهوم "إلغاء التعلُّم المعرفي" (knowledge unlearning) كطريقة بديلة لتقليل المخاطر المتعلقة بالخصوصية في نماذج اللغة بعد اكتمال التدريب. ونُظهر أن مجرد إجراء تصاعُد التدرج (gradient ascent) على تسلسلات الرموز المستهدفة يكون فعّالاً في تذكُّر نسيان هذه المعلومات، مع حد أدنى من التدهور في أداء النموذج العام لنموذج اللغة، خاصة في النماذج الكبيرة؛ بل ويُحسِّن أحيانًا بشكل ملحوظ من أداء النموذج الأساسي بعد عدد قليل جدًا من التكرارات. كما وجدنا أن إلغاء التعلُّم التسلسلي يكون أفضل من محاولة نسيان جميع البيانات دفعة واحدة، وأن عملية إلغاء التعلُّم تعتمد بشكل كبير على نوع البيانات (المجال) التي يتم نسيانها. وبمقارنة النتائج مع طريقة معالجة البيانات السابقة وطريقة فك التشفير المعروفة بتعزيز الحماية من المخاطر الخاصة بالخصوصية في نماذج اللغة، نُظهر أن إلغاء التعلُّم يمكن أن يُقدِّم ضمانًا تجريبيًا أقوى للخصوصية في السيناريوهات التي تكون فيها البيانات عرضة لهجمات الاستخراج مُعلَّمة مسبقًا، مع الحفاظ على كفاءة عالية ومقاومة أكبر. ونُطلق الكود والبيانات اللازمة لاستنساخ نتائجنا عبر الرابط التالي: https://github.com/joeljang/knowledge-unlearning.