تنقية الميزات لتحسين متانة النماذج ضد الهجمات المعادية

تُمثّل الهجمات العدائية على أنظمة تصنيف الصور تحديًا للشبكات الإدراكية وفرصةً لفهمها. تشير هذه الدراسة إلى أن التلاعبات العدائية في الصور تؤدي إلى ضوضاء في الخصائص التي يبنيها هذه الشبكات. مستوحى من هذا الملاحظ، قمنا بتطوير هياكل شبكة جديدة تزيد من متانة الهجمات العدائية من خلال إجراء تنقية الخصائص (Feature Denoising). بشكل خاص، تحتوي شبكاتنا على كتل تقوم بتنقية الخصائص باستخدام الوسائل غير المحلية أو مرشحات أخرى؛ ويتم تدريب الشبكات بأكملها بطريقة النهاية إلى النهاية (End-to-End). عند الجمع بينها وبين التدريب العدائي، تحسن شبكات تنقية الخصائص لدينا بشكل كبير الحالة المتقدمة في متانة الهجمات العدائية في كل من بيئات الهجوم البيضاء والسوداء. على ImageNet، وفي ظل هجمات PGD البيضاء ذات 10 تكرارات حيث حققت الأعمال السابقة دقة بنسبة 27.9٪، تمكنت طريقتنا من تحقيق دقة بنسبة 55.7٪؛ وحتى تحت هجمات PGD البيضاء القاسية ذات 2000 تكرار، حافظت طريقتنا على دقة بنسبة 42.6٪. تم تصنيف طريقتنا في المركز الأول في مسابقة الهجمات والدفاعات العدائية (CAAD) لعام 2018 --- فقد حققت دقة تصنيف بنسبة 50.6٪ على مجموعة بيانات اختبار سرية مشابهة لـ ImageNet ضد 48 مهاجماً غير معروفاً، مما يفوق نهج الوصيف بمعدل حوالي 10٪. يمكن الوصول إلى الكود عبر الرابط: https://github.com/facebookresearch/ImageNet-Adversarial-Training.请注意,对于一些专有名词如 "ImageNet" 和 "PGD" 我保留了英文形式,因为这些在阿拉伯语科技文献中通常也是以英文形式出现的。同时,我在某些地方添加了括号内的英文注释,以便更好地传达原文的意思。