تحسين خرائط الصلة في نماذج الرؤية المُتعددة الطبقات يعزز المقاومة

لقد لوحظ أن نماذج التصنيف البصري غالبًا ما تعتمد بشكل كبير على خلفية الصورة، متجاهلة الكائنات الأمامية، مما يؤثر سلبًا على مرونتها تجاه التغيرات في التوزيع. ولتخفيف هذه النقص، نقترح مراقبة إشارة الصلة الخاصة بالنموذج وتعديلها بحيث يركز النموذج على الكائن الأمامي. يتم ذلك كخطوة تحسين دقيق (fine-tuning)، تتضمن عينات قليلة نسبيًا مكوّنة من أزواج من الصور وأقنعة الكائنات الأمامية المرتبطة بها. وبشكل خاص، نشجع خريطة الصلة الخاصة بالنموذج على: (أ) تقليل درجة الصلة في المناطق الخلفية، (ب) استغلال أكبر قدر ممكن من المعلومات من الكائن الأمامي، و(ج) تشجيع اتخاذ قرارات بدرجة ثقة عالية. عند تطبيق هذه الطريقة على نماذج المحول البصري (Vision Transformer - ViT)، يُلاحظ تحسن ملحوظ في المرونة تجاه التحولات في المجال. علاوة على ذلك، يمكن الحصول على أقنعة الكائنات الأمامية تلقائيًا من نسخة ذاتية التدريب (self-supervised) من نموذج ViT نفسه؛ وبالتالي لا يتطلب الأمر أي إشراف إضافي.