أقنعة الانتباه تساعد الهجمات الضارة على تجاوز كاشفات السلامة

على الرغم من التقدم البحثي الأخير في أساليب الهجوم المضادة للذكاء الاصطناعي التفسيري (XAI)، تبقى الأساليب الحالية الموجهة ضد مراقبة XAI قابلة للكشف وبطيئة. في هذه الورقة، نقدم إطارًا تكيفيًا لتكوين قناع الانتباه بهدف تمكين هجوم صور مُعدّلة باستخدام خوارزمية PGD على تصنيف الصور، يتميز بالخفاء والقابلية للتفسير والكفاءة تحت مراقبة XAI. وبشكل خاص، نستخدم مزيجًا مُعدّلًا من XAI وشبكة X-UNet ذات التعلم الذاتي متعددة المهام لتكوين قناع الانتباه، والذي يوجه عملية الهجوم باستخدام PGD. أظهرت التجارب على مجموعتي بيانات MNIST (باستخدام MLP) وCIFAR-10 (باستخدام AlexNet) أن نظامنا يتفوق على الطرق القياسية مثل PGD وSparsefool والأساليب المتطورة (SOTA) مثل SINIFGSM من حيث التوازن بين الخفاء، الكفاءة، والقابلية للتفسير، وهي عوامل حاسمة لخداع فعّال للنماذج المحمية بأحدث تقنيات الحماية.