التفريق الموجه بالتحفيز للتنشيط الفئوي في التجزئة الدلالية المراقبة الضعيفة
تم دراسة أساليب التجزئة الشاملة الضعيفة التدريب (WSSS) باستخدام المحولات (transformer) بشكل مكثف، وذلك بفضل قدرتها القوية على استخلاص السياق العالمي. ومع ذلك، نظرًا لأن دالة التنشيط تُبرز فقط عددًا قليلاً من الرموز (tokens) في آلية الانتباه الذاتي (self-attention) في المحولات، ما زالت هذه الأساليب تعاني من خرائط الانتباه النادرة (sparse attention map)، مما يؤدي إلى توليد علامات افتراضية غير كاملة. في هذا البحث، نقترح خطة جديدة لتنشيط الفئة (class activation) قادرة على إبراز منطقة الكائن بالتساوي على طول كاملها. الفكرة الأساسية للطريقة المقترحة تكمن في تنشيط منطقة الكائن وفقًا لتوجيه مجموعات (clusters) تُكوَّن من دمج السمات الصورية المتشابهة للكائن. بشكل محدد، يتم إنشاء خريطة تنشيط الفئة الموجهة بالتركيب (ClusterCAM) من خلال وحدة الانتباه القائمة على التجميع (clustering-based attention module)، ثم تُستخدم المناطق ذات الاستجابة العالية في هذه الخريطة لتنشيط الكائنات المستهدفة في فضاء السمات المشفرة. ويساعد هذا النموذج على استكشاف المنطقة الكاملة للكائن المستهدف من خلال استغلال القرب الدلالي بين رموز الشريحة (patch tokens) المستخرجة من نفس الكائن. بناءً على هذا المبدأ، صممنا إطارًا متكاملًا (end-to-end) لـ WSSS يمكنه تدريب شبكتي التصنيف والتقسيم في نفس المرحلة بشكل موحد. أظهرت النتائج التجريبية على مجموعات بيانات معيارية أن الطريقة المقترحة تتفوق بشكل ملحوظ على الأساليب السابقة لـ WSSS، بما في ذلك عدة طرق متعددة المراحل. تم إتاحة الشفرة النصية والنموذج بشكل عام عبر الرابط التالي: https://github.com/DCVL-WSSS/ClusterCAM.