الثبات ضد الهجمات من خلال التخطيط المحلي

التدريب المعاكس هو منهج فعال لتدريب الشبكات العصبية العميقة التي تكون مقاومة للتشويهات المعادية والمحددة بالقيمة الطبيعية (norm-bounded). ومع ذلك، يزداد التكلفة الحسابية للتدريب المعاكس بشكل كبير وغير مقبول مع زيادة حجم النموذج وعدد الأبعاد الإدخالية. بالإضافة إلى ذلك، فإن التدريب ضد أعداء أقل تكلفة وبالتالي أضعف يؤدي إلى نماذج تكون مقاومة للهجمات الضعيفة ولكنها تنهار تحت الهجمات الأقوى. غالبًا ما يُنسب هذا الظاهرة إلى تشتيت التدرج (gradient obfuscation)؛ حيث يكون سطح الخسارة لهذه النماذج شديد اللاخطية في محيط أمثلة التدريب، مما يجعل من الصعب على الهجمات القائمة على التدرج النجاح رغم وجود الأمثلة المعادية.في هذه الدراسة، نقدم مُعَيَّنًا جديدًا يشجع على أن يتصرف الدالة الخسارة بشكل خطي في محيط بيانات التدريب، مما يعاقب تشتيت التدرج ويحفز على المتانة. نظهر من خلال تجارب واسعة النطاق على CIFAR-10 و ImageNet أن النماذج التي تم تدريبها باستخدام مُعَيَّننا تتجنب تشتيت التدرج ويمكن تدريبها بشكل أسرع بكثير من التدريب المعاكس. باستخدام هذا المُعَيَّن، نتجاوز الحالة الحالية للمستوى الأول ونحقق دقة معادية تبلغ 47% لـ ImageNet مع تشويهات معادية l-إنفينيتي (l-infinity) بشعاع 4/255 تحت هجوم قوي غير مستهدف ومكشوف الصندوق (white-box). بالإضافة إلى ذلك، نتوافق مع أفضل النتائج الحالية لـ CIFAR-10 عند 8/255.