التصنيف البصري الدقيق من خلال التدريب التدريجي متعدد الحُدود لقطع الجigsaw

التصنيف البصري الدقيق (FGVC) يُعد أكثر صعوبة من مهام التصنيف التقليدية بسبب التغيرات الدقيقة ذات الطبيعة الداخلية داخل الفئات. تناولت الدراسات الحديثة هذه المشكلة بشكل رئيسي من خلال التركيز على كيفية تحديد الأجزاء الأكثر تمييزًا، والأجزاء الأكثر تكميلية، وأجزاء ذات درجات تفصيل مختلفة. ومع ذلك، لم يُبذل قدر كبير من الجهد لتحديد أي درجات تفصيل هي الأكثر تمييزًا، وكيفية دمج المعلومات عبر التفاصيل المتعددة. في هذا العمل، نقترح إطارًا جديدًا للتصنيف البصري الدقيق يهدف إلى معالجة هذه المشكلات. وبشكل خاص، نُقدّم: (i) استراتيجية تدريب تدريجية تُمكن من دمج الخصائص من درجات تفصيل مختلفة بشكل فعّال، و (ii) مُولّد قطع مُجزّأة عشوائية (random jigsaw patch generator) يُشجّع الشبكة على تعلّم الخصائص عند درجات تفصيل معينة. وقد حققنا أداءً متقدمًا على عدة مجموعات بيانات معيارية شهيرة للتصنيف البصري الدقيق، حيث تفوقت الطريقة المقترحة باستمرار على الطرق الحالية أو قدمت نتائج تنافسية. ستكون الكود متوفرًا على: https://github.com/PRIS-CV/PMG-Progressive-Multi-Granularity-Training.