دفاع معاكس عن طريق تقييد الفضاء الخفي للشبكات العصبية العميقة

الشبكات العصبية العميقة عرضة لهجمات الخصم (adversarial attacks)، والتي يمكن أن تخدعها بإضافة تغيرات طفيفة إلى الصور المدخلة. يتأثر متانة الدفاعات الحالية بشكل كبير في ظروف الهجوم الأبيض (white-box attack settings)، حيث يكون للخصم معرفة كاملة حول الشبكة ويمكنه التكرار عدة مرات للعثور على تغيرات قوية. نلاحظ أن السبب الرئيسي لوجود مثل هذه التغيرات هو القرب الكبير بين عينات الفئات المختلفة في الفضاء الخاص بالسمات المُتعلَّمة. هذا يسمح بتغيير قرارات النموذج تمامًا عن طريق إضافة تغير غير مرئي في المدخلات. لمواجهة هذا، نقترح فصل تمثيلات السمات الوسيطة للشبكات العميقة حسب الفئة. بتحديد، نجبر السمات لكل فئة على البقاء داخل مضلع محدب يتم فصله بشكل أقصى عن مضلوعات الفئات الأخرى. بهذه الطريقة، يتم إجبار الشبكة على تعلم مناطق قرار مختلفة وبعيدة لكل فئة. نلاحظ أن هذا القيود البسيط على السمات يعزز بشكل كبير من متانة النماذج المُتعلَّمة، حتى ضد أقوى هجمات الأبيض، دون التأثير سلبًا على أداء التصنيف للصور النظيفة. نقدم تقييمات واسعة في كل من سيناريوهات الهجوم الأسود والابيض ونظهر مكاسب كبيرة مقارنة بالدفاعات الأكثر تقدمًا حاليًا.