التعلم الانتباهي متعدد الفروع ومتعدد المقياس للتصنيف البصري الدقيق

تحدي إيماجنت للتمييز البصري على نطاق واسع (ILSVRC) هو أحد أكثر المسابقات الأكاديمية شهرةً في مجال الرؤية الحاسوبية (CV) في السنوات الأخيرة. ومع ذلك، فإن تطبيق البطل السنوي لـ ILSVRC مباشرةً على مهام التصنيف البصري الدقيق (FGVC) لا يحقق أداءً جيدًا. ففي مهام FGVC، تُعد التغيرات الصغيرة بين الفئات والاختلافات الكبيرة داخل الفئة تحديًا كبيرًا. يُمكن لوحدة تحديد موقع الكائن بالانتباه (AOLM) التنبؤ بموقع الكائن، بينما تُقترح وحدة اقتراح مناطق الأجزاء المهمة (APPM) مناطق أجزاء مفيدة دون الحاجة إلى تسميات مربعات حدودية (bounding-box) أو تسميات أجزاء. تتميز الصور المُستخرجة بالكائنات بوجود الهيكل الكامل تقريبًا للكائن، بالإضافة إلى تفاصيل إضافية، بينما تتميز صور الأجزاء بمقاييس متعددة وسمات أكثر دقة، كما أن الصور الأصلية تحتوي على الكائن الكامل. تُدرَّب هذه الأنواع الثلاثة من الصور باستخدام شبكة متعددة الفروع التي نقترحها. وبالتالي، تمتلك شبكة التعلم متعددة الفروع والمقاييس (MMAL-Net) قدرة تصنيفية قوية ومتانة عالية على صور ذات مقاييس مختلفة. يمكن تدريب منهجنا بشكل متكامل (end-to-end)، مع توفير وقت استنتاج قصير. أظهرت التجارب الشاملة أن منهجنا يحقق نتائج من الطراز الرائد (state-of-the-art) على مجموعات بيانات CUB-200-2011 وFGVC-Aircraft وStanford Cars. سيتم إتاحة الشفرة المصدرية على الرابط: https://github.com/ZF1044404254/MMAL-Net