تعلم ميزة مُحسَّنة دلاليًا لتصنيف صور دقيق

نهدف في هذه المذكرة إلى تقديم نهج مُحسَّن من حيث التكلفة الحسابية ولكنه فعّال لتصنيف الصور الدقيق (FGIC). على عكس الطرق السابقة التي تعتمد على وحدات معقدة لتحديد الأجزاء، يتعلم نهجنا ميزات دقيقة من خلال تعزيز الدلالة في الميزات الجزئية للسمة العالمية. وبشكل محدد، نحقق الدلالة الجزئية للسمة عن طريق ترتيب قنوات الشبكة العصبية التلافيفية (CNN) إلى مجموعات مختلفة من خلال تبديل القنوات. وفي الوقت نفسه، لتعزيز قدرة التمييز في الميزات الجزئية، تُوجَّه المجموعات لتُفعَّل على الأجزاء المميزة للجسم من خلال تنظيم مركب موزون. يتميز هذا النهج بكونه اقتصاديًا من حيث عدد المعاملات، ويمكن دمجه بسهولة في النموذج الأساسي كوحدة جاهزة للتركيب (plug-and-play) لتدريب متكامل (end-to-end) باستخدام فقط إشراف على مستوى الصورة. وقد أكدت التجارب فعالية النهج، وتحقق أداءً مماثلاً للطرق الرائدة في مجالها. يتوفر الكود على الرابط: https://github.com/cswluo/SEF