إعادة تدريب الذكاء الاصطناعي لتعزيز أمانه حتى بعد إزالة طبقات أساسية
مع انتشار النماذج الذكية الاصطناعية من الخوادم السحابية إلى الأجهزة المحمولة والسيارات، تُجرى عمليات تقليل حجم النماذج لتوفير الطاقة، لكن هذه التخفيضات قد تتضمن إزالة طبقات داخلية حاسمة في الحماية، ما يجعل النماذج عرضة لإنتاج محتوى غير آمن مثل التحريض على العنف أو تقديم تعليمات لصنع أسلحة. في محاولة لمعالجة هذه الثغرة، طوّر باحثون من جامعة كاليفورنيا في ريفيرسайд طريقة لتعزيز الحماية الداخلية للنماذج المفتوحة المصدر، حتى عند تقليلها لتشغيلها على أجهزة منخفضة الطاقة. النماذج المفتوحة المصدر تُعدّ مفيدة لتعزيز الابتكار والشفافية، لكنها تفتقر إلى البنية التحتية السحابية التي تتيح الرقابة المستمرة، مما يزيد من مخاطر الاستخدام غير الأخلاقي. وركز الباحثون على مشكلة تُعرف بـ"ثغرة الخروج المبكر من طبقات المُشفرة الصورية" (ICET)، حيث تختلف درجة الأمان في النتائج حسب الطبقة التي تُستخدم في معالجة الصورة، حتى مع نفس المدخلات (صورة وسؤال). ووجدوا أن إزالة طبقات معينة – التي تُعدّ ضرورية لحماية النموذج – تؤدي إلى تجاوز الحواجز الأمنية، مما يسمح للنموذج بالإجابة على أسئلة خطيرة. لحل هذه المشكلة، طوّروا منهجية تُسمى "L-PPO" (Layer-wise Clip-PPO)، تُعيد تدريب النموذج على مستوى كل طبقة لضمان بقاء فهمه للسياقات الخطرة، حتى عند حذف طبقات أساسية. بخلاف الحلول التقليدية التي تعتمد على حواجز خارجية أو مرشحات برمجية، تركز هذه الطريقة على تعديل الفهم الداخلي للنموذج، لجعل السلوك الآمن جزءًا من تركيبه الأساسي. في التجارب، استخدم الفريق نموذج LLaVA 1.5، ووجدوا أن نموذجًا مُعدّلًا يمكنه تجاوز الحماية عند دمج صورة غير ضارة بسؤال خبيث، مثل طلب تعليمات لصنع قنبلة. بعد تطبيق إعادة التدريب، أصبح النموذج قادرًا على رفض الإجابة على مثل هذه الأسئلة، حتى عند تشغيله ببنية مختصرة جدًا. يصف الباحثان ساكيث باشو وإرفان شايغاني، القائمان على العمل، هذه العملية بـ"الاختراق الإنساني"، حيث يتم تعزيز النموذج مسبقًا لصد الثغرات قبل استغلالها. الهدف النهائي هو ضمان سلامة النموذج عبر كل الطبقات الداخلية، مما يجعله أكثر مرونة وموثوقية في البيئات الواقعية. شارك في البحث أيضًا باحثون من الجامعة من بينهم أريندام دوتا، روهيت لال، وتريشنا تشاكربورتي، وهم من الباحثين الدكتوراه، إضافة إلى أعضاء هيئة التدريس تشينغيو سونغ، يوي دونغ، ونايل أبو غزاليه. تم عرض النتائج في مؤتمر العالم لتعلم الآلة في فانكوفر، كندا. وشدد البروفيسور أميت روي-تشودهوري، المشرف الأكاديمي، على أن العمل يمثل خطوة عملية نحو تطوير ذكاء اصطناعي مفتوح المصدر وآمن في آنٍ واحد، مع وجود مساحات واسعة للتحسين المستقبلي.
