الانتباه القائم على عينة الأجزاء متعددة التفاصيل للتصنيف البصري الدقيق
التصنيف البصري الدقيق يهدف إلى تصنيف الفئات الفرعية المشابهة، وسط التحديات الناتجة عن التباين الكبير داخل الفئة الفرعية نفسها، والتشابه البصري العالي بين الفئات الفرعية المختلفة. في الآونة الأخيرة، لاقت الطرق التي تستخرج الأجزاء الشكلية للمناطق التمييزية اهتمامًا متزايدًا. ومع ذلك، تعتمد معظم الطرق الحالية على استخراج ميزات الأجزاء باستخدام صناديق محيطة مستطيلة، من خلال وحدة كشف الكائنات أو آلية الانتباه، مما يجعل من الصعب التقاط المعلومات الغنية حول الشكل الكلي للكائنات. في هذا البحث، نقترح شبكة جديدة تُسمى "الانتباه المُعدّل بالعينة الجزئية متعددة الحُدود" (MPSA) للتصنيف البصري الدقيق. أولاً، تم تصميم كتلة استرجاع أجزاء متعددة الحُدود جديدة لاستخراج معلومات الأجزاء على مقاييس مختلفة، وتعزيز تمثيل الميزات عالية المستوى باستخدام ميزات أجزاء تمييزية ذات تفاصيل متعددة. ثم، لاستخراج ميزات الأجزاء ذات أشكال متنوعة على كل مستوى من المستويات، نقترح "الانتباه المُعدّل بالعينة الجزئية"، الذي يمكنه عينة الأجزاء الشكلية الضمنية على خرائط الميزات بشكل شامل. ويجعل الانتباه المُعدّل بالعينة الجزئية لا يأخذ بعين الاعتبار أهمية الأجزاء المستخرجة فحسب، بل يُطبّق أيضًا تقنية "إسقاط الجزء" لتقليل مشكلة التعلم الزائد (overfitting). بالإضافة إلى ذلك، نقترح طريقة جديدة لدمج متعدد الحُدود لتسليط الضوء على الميزات الأمامية وتقليل الضوضاء الخلفية باستخدام خريطة تفعيل الفئة المُشتقّة من التدرج (Gradient Class Activation Map). تُظهر النتائج التجريبية أن الشبكة المقترحة MPSA تحقق أداءً متفوّقًا على مستوى الحالة الحالية (state-of-the-art) في أربع معايير شائعة للتصنيف البصري الدقيق. وتم إتاحة الشفرة المصدرية للعامة عبر الرابط: https://github.com/mobulan/MPSA.