التعلم المتماسك لجميع الأزواج للتقسيم الدلالي المراقب بشكل ضعيف

في هذه الدراسة، نقترح طريقة جديدة لتحسين الت régularisation القائمة على المحولات (Transformer-based regularization) لتعزيز تحليل موقع الكائنات في التجزئة الدلالية المُشَغَّلة ضعيفًا (WSSS). في حالة التجزئة الدلالية المُشَغَّلة بمستوى الصورة (Image-level WSSS)، تُستخدم خريطة تنشيط الفئة (Class Activation Map - CAM) لإنشاء تحليل موقع الكائنات كعلامات تجزئة افتراضية. ولحل مشكلة التنشيط الجزئي التي تعاني منها CAMs، تُطبَّق طريقة الت régularisation المستمرة للحفاظ على استقرار شدة التنشيط عبر مختلف عمليات توليد الصور المُعدَّلة. ومع ذلك، تتجاهل هذه الطرق العلاقات الزوجية بين المناطق داخل كل CAM، والتي تحمل معلومات سياقية ويجب أن تبقى ثابتة عبر مختلف منظورات الصورة. ولذلك، نقترح طريقة جديدة تُسمى الت régularisation المستمرة لجميع الأزواج (All-Pairs Consistency Regularization - ACR). وباستخدام زوج من الصور المُعدَّلة، تقوم طريقة لدينا بتنشيط شدة التنشيط بين هاتين الصورتين، مع ضمان بقاء الترابط (affinity) بين المناطق داخل كل صورة ثابتًا. ونستخدم محولات الرؤية (Vision Transformers) كآلية انتباه ذاتي، لأنها تُدمج بشكل طبيعي الترابط الزوجي بين المناطق. هذا يمكّننا من تبسيط عملية الت régularisation من خلال تقليل المسافة بين مصفوفات الانتباه للصور المُعدَّلة الزوجية. بالإضافة إلى ذلك، نقدِّم طريقة جديدة لتحديد موقع الفئة حسب الفئة (class-wise localization) تُستخدِم فيها مشتقات رمز الفئة (class token). يمكن دمج طريقتنا بسلاسة في الأساليب الحالية لـ WSSS التي تعتمد على المحولات دون الحاجة إلى تعديل البنية المعمارية. وقد تم تقييم أدائنا على مجموعتي بيانات PASCAL VOC وMS COCO. وقد أظهرت النتائج تحسينًا ملحوظًا في خرائط تحديد موقع الفئة (67.3% mIoU على مجموعة التدريب في PASCAL VOC)، ما أدى إلى أداء متفوّق في التجزئة الدلالية المُشَغَّلة ضعيفًا.