تدريب المقاومة التقديرية باستخدام المحاذاة المكانية للمساهمة-المنحدر المدخل

تُعدّ القابلية للتفسير مجالًا بحثيًا ناشئًا في التعلم الآلي الموثوق. ويتطلب النشر الآمن لأنظمة التعلم الآلي أن تكون التنبؤات وشرحها موثوقة وقوية. وُجد مؤخرًا أن التفسيرات يمكن التلاعب بها بسهولة من خلال إضافة اضطرابات بصرية غير مُدرَكة إلى المدخل، مع الحفاظ على التنبؤ نفسه دون تغيير. وفي هذا العمل، ندرس مشكلة المقاومة التفسيرية (أي نماذج ذات تفسيرات قوية) من خلال إظهار حد أعلى لحساسية التفسيرات بدلالة الارتباط المكاني بين الصورة المدخلة وخرائط التفسير المُنتجَة. ونُقدّم منهجية تدريب تتعلم خصائص قوية من خلال تقليل هذا الحد الأعلى باستخدام خسارة ثلاثية ذات حد ناعم (soft-margin triplet loss). تُحقّق منهجيتنا لتدريب التفسيرات القوية (ART) قياسًا جديدًا لحالة المقاومة التفسيرية، بفارق يتراوح بين 6% إلى 18% على عدة مجموعات بيانات قياسية، مثل SVHN وCIFAR-10 وGTSRB. كما نُظهر فائدة التقنية المُقترحة للتدريب القوي (ART) في المهمة التالية المتمثلة في تحديد موقع الكائنات المُراقبة بشكل ضعيف، حيث تحقّق أداءً جديدًا لحالة الأداء القصوى على مجموعة بيانات CUB-200.