فهم مقاومة الدفاع عن الميزات العشوائية ضد الهجمات الضارة القائمة على الاستعلام

أظهرت الدراسات الحديثة أن الشبكات العصبية العميقة عرضة لامثلة مضادة، والتي تُنتج عينات قريبة من الصورة الأصلية ولكنها تؤدي إلى تصنيف خاطئ من قبل النموذج. حتى مع توفر الوصول فقط إلى مخرجات النموذج، يمكن للمهاجم استخدام هجمات "الصندوق الأسود" لإنشاء هذه الأمثلة المضادة. في هذا العمل، نقترح دفاعًا بسيطًا وخفيفًا ضد هجمات الصندوق الأسود من خلال إضافة ضجيج عشوائي إلى الميزات المخفية في الطبقات الوسطى للنموذج أثناء عملية الاستدلال. تؤكد التحليل النظري لدينا أن هذه الطريقة تُعزز بشكل فعّال مقاومة النموذج أمام هجمات الصندوق الأسود القائمة على التصنيف (decision-based) والهجمات القائمة على التصنيف بالدرجات (score-based). ومن المهم الإشارة إلى أن دفاعنا لا يتطلب تدريبًا مضادًا، ويؤثر بشكل ضئيل على الدقة، مما يجعله قابلاً للتطبيق على أي نموذج مُدرّب مسبقًا. كما يكشف تحليلنا عن أهمية إضافة الضجيج بشكل انتقائي إلى أجزاء مختلفة من النموذج بناءً على قيمة المشتقة (الGradient) لدالة الهدف المضاد، والتي قد تختلف أثناء الهجوم. ونُظهر موثوقية دفاعنا ضد مجموعة متنوعة من هجمات الصندوق الأسود من خلال تجارب تجريبية واسعة تشمل نماذج متعددة ذات هياكل مختلفة.