الشبكة التدريجية للانتباه التعاوني للتصنيف البصري الدقيق

يهدف التصنيف البصري الدقيق إلى تمييز الصور المنتمية إلى فئات فرعية متعددة ضمن فئة واحدة. ويعتبر هذا المهمة صعبة نظرًا للتغيرات الدقيقة بطبيعتها بين الفئات التي تُخلط بسهولة. تعتمد معظم الطرق الحالية على صورة فردية كمدخل، مما قد يحد من قدرة النماذج على اكتشاف أدلة التمييز من صور مختلفة. في هذا البحث، نقترح طريقة فعالة تُسمى شبكة التأمل التدريجي المشترك (PCA-Net) لمعالجة هذه المشكلة. بشكل خاص، نحسب التشابه بين القنوات من خلال تشجيع التفاعل بين قنوات الميزات ضمن أزواج الصور التي تنتمي إلى نفس الفئة، بهدف اكتشاف الميزات التمييزية المشتركة. وبما أن المعلومات المكملة تُعد أيضًا حاسمة للتمييز، نقوم بحذف المناطق البارزة التي تم تعزيزها من خلال التفاعل بين القنوات، بهدف إجبار الشبكة على التركيز على مناطق تمييزية أخرى. وقد حققت النموذج المقترح نتائج تنافسية على ثلاث مجموعات معيارية لتصنيف بصري دقيق: CUB-200-2011، وStanford Cars، وFGVC Aircraft.