F-CAM: خرائط تنشيط الفئة بدقة كاملة من خلال التكبير الموجه القائم على المعاملات

حصلت أساليب خريطة تفعيل الفئة (CAM) على اهتمام كبير مؤخرًا في مهام التحديد الكائنات المُعلَّمة بشكل ضعيف (WSOL). حيث تتيح هذه الأساليب تصور وفهم الشبكات العصبية التلافيفية (CNN) دون الحاجة إلى تدريب على مجموعات بيانات صور مُعلَّمة بالكامل. غالبًا ما تُدمج أساليب CAM داخل هياكل CNN جاهزة الاستخدام، مثل ResNet50. ومع ذلك، نظرًا لعمليات التباعد والتقريب (convolution و pooling)، تُنتج هذه الهياكل خرائط CAM ذات دقة منخفضة، مع عامل تقليل حجم يصل إلى 32، ما يُسهم في دقة تعيين المواقع غير الدقيقة. ويتطلب استعادة خرائط CAM بحجم كامل استخدام تداخل (Interpolation)، لكن هذا لا يأخذ بعين الاعتبار الخصائص الإحصائية للكائنات، مثل اللون والملمس، مما يؤدي إلى تفعيلات ذات حدود غير متسقة، وبالتالي تعيينات غير دقيقة. كحل بديل، نقدّم طريقة عامة قابلة للتعديل لتكبير خرائط CAM بشكل معلمي، تُمكّن من بناء خرائط CAM بدقة كاملة (F-CAMs) بدقة عالية. وبشكل خاص، نقترح بنية فك تدريبية قابلة للتعديل يمكن ربطها بأي تصنيف CNN لإنتاج تعيينات CAM دقيقة جدًا. عند توفر خريطة CAM منخفضة الدقة الأصلية، يتم أخذ عينات عشوائية من بكسلات الكائن الأمامي والخلفي لتحسين فك الترميز. كما تُؤخذ في الاعتبار معلومات مسبقة إضافية، مثل إحصائيات الصورة وقيود الحجم، لتوسيع وتحسين حدود الكائنات. أظهرت التجارب الواسعة، التي أجريت على ثلاث هياكل CNN وستة أساليب أساسية لـ WSOL على مجموعتي بيانات CUB-200-2011 وOpenImages، أن طريقة F-CAM تحقق تحسنًا ملحوظًا في دقة تعيين المواقع لخرائط CAM. كما تُظهر أداءً تنافسيًا مع أفضل الطرق الحالية في WSOL، مع استهلاك أقل للحسابات أثناء عملية الاستنتاج.