HyperAIHyperAI
منذ 18 أيام

التصنيف البصري الدقيق باستخدام التطبيع المتشتت للحزمة

{Tyng-Luh Liu, Ming-Sui Lee, Ding-Jie Chen, Cheng-Yao Hong, Yen-Chi Hsu, Davi Geiger}
الملخص

نقدم مفهومًا للتنظيم مبنيًا على ما تم اقتراحه من تنظيم التباعد البطئ (BCN) لمعالجة تصنيف الرؤية الدقيقة (FGVC). يتميز مشكلة تصنيف الرؤية الدقيقة بشكل لافت بخاصيتين مثيرتين للاهتمام: التشابه الكبير بين الفئات المختلفة، والتباينات داخل الفئة الواحدة، وهي الخصائص التي تجعل إنشاء فئة تصنيف فعّالة لـ FGVC مهمة صعبة. مستوحين من استخدام طاقة التباس الزوجي كآلية للتنظيم، طوّرنا تقنية BCN لتحسين عملية تعلّم FGVC من خلال فرض التباس في التنبؤ بالفئات على كل دفعة تدريبية، وبالتالي تقليل احتمال التعلم الزائد الناتج عن استكشاف التفاصيل الدقيقة في الميزات الصورية. علاوة على ذلك، تم تنفيذ طريقتنا باستخدام نموذج شبكة عصبية تلافيفية ذات مدخلات انتقائية (attention gated CNN)، مع تعزيز أداء النموذج من خلال دمج تجميع الهرم المكاني المفرغ (Atrous Spatial Pyramid Pooling - ASPP) لاستخراج ميزات تمييزية وانتباهات مناسبة. ولإثبات فعالية طريقتنا، نُقدم نتائج متقدمة على مستوى الحد الأقصى في عدة مجموعات بيانات معيارية لـ FGVC، إلى جانب مقارنات تحليلية شاملة.