الأقل أفضل: عدد أقل من المناطق القابلة للتفسير عبر اختيار مجموعة جزئية ذات خصائص ناقصة

تهدف خوارزميات نسب الصور إلى تحديد المناطق المهمة ذات الصلة العالية بقرارات النموذج. رغم أن الحلول الحالية للنسب يمكنها تعيين الأهمية بشكل فعال للعناصر المستهدفة، إلا أنها لا تزال تواجه التحديات التالية: 1) تولد الطرق الحالية للنسب مناطق صغيرة غير دقيقة مما يضلل اتجاه النسب الصحيح، و2) لا يمكن للنموذج إنتاج نتائج جيدة للنسب بالنسبة للأمثلة التي تم التنبؤ بها بشكل خاطئ. لمعالجة هذه التحديات، يعيد هذا البحث صياغة مشكلة نسب الصور كمشكلة اختيار مجموعة جزئية محدبة (Submodular)، بهدف تعزيز قابلية تفسير النموذج باستخدام عدد أقل من المناطق. لمعالجة نقص الاهتمام بالمناطق المحلية، نقوم ببناء دالة محدبة جديدة لاكتشاف مناطق تفسيرية صغيرة وأكثر دقة. كما نفرض أربع قيود مختلفة على اختيار المناطق الجزئية، وهي درجات الثقة والفعالية والثبات والتعاون، لتقييم أهمية مختلف المجموعات الفرعية. بالإضافة إلى ذلك، يؤكد تحليلنا النظري أن الدالة المقترحة في الواقع محدبة (Submodular). تظهر التجارب الواسعة أن الطريقة المقترحة تتقدم على أفضل الطرق الحالية (SOTA) في مجموعتين من بيانات الوجوه (Celeb-A وVGG-Face2) وفي مجموعة بيانات دقيقة المستوى (CUB-200-2011). فيما يتعلق بالأمثلة التي تم التنبؤ بها بشكل صحيح، فإن الطريقة المقترحة تحسن درجات الحذف والإدراج بمتوسط زيادة قدره 4.9% و2.5% مقارنة بخوارزمية HSIC-Attribution. أما بالنسبة للأمثلة التي تم التنبؤ بها بشكل خاطئ، فقد حققت طرحتنا زيادات بنسبة 81.0% و18.4% مقارنة بخوارزمية HSIC-Attribution في المتوسط الأعلى لدرجة الثقة وفي درجة الإدراج على التوالي. تم إطلاق الكود في https://github.com/RuoyuChen10/SMDL-Attribution.