تعلم النصوص المعنوية للتقسيم المعنوي المُراقب بشكل ضعيف

يهدف التجزئة الشكلية ذات الإشراف الضعيف (WSSS) إلى تدريب نماذج التجزئة باستخدام بيانات صور فقط بوجود إشراف على مستوى الصورة. وبما أن التسميات الدقيقة على مستوى البكسل غير متوفرة، فإن الطرق الحالية تركز عادةً على إنتاج أقنعة افتراضية لتدريب نماذج التجزئة من خلال تحسين خرائط الحرارة من نوع CAM. ومع ذلك، قد تُمثّل هذه الخرائط الحرارية فقط المناطق التمييزية في الصور الخاصة بفئات الكائنات أو الخلفيات المرتبطة بها بشكل متزامن. ولحل هذه المشكلات، نقترح إطارًا يُسمى تعلم النصوص التوجيهية(semantic prompt learning) للـ WSSS (SemPLeS)، والذي يتعلّم كيفية التوجيه الفعّال لفضاء التمثيل المخفي في CLIP لتعزيز التوافق الشكلي بين المناطق المجزأة والفئات المستهدفة للكائنات. وبشكل أكثر تحديدًا، نقترح تعلم النصوص التوجيهية القائمة على التباين (Contrastive Prompt Learning) وتحسينًا شاخصًا للسياق (Prompt-guided Semantic Refinement) لتعلم نصوص توجيهية تصف بشكل كافٍ الكائنات وتحجب الخلفيات المرتبطة بها. وبهذا، يمكن لـ SemPLeS تحقيق تطابق شكلي أفضل بين مناطق الكائنات وعلامات الفئات، مما يؤدي إلى إنتاج أقنعة افتراضية مرغوبة لتدريب نماذج التجزئة. ويُظهر الإطار المقترح أداءً تنافسيًا على معايير WSSS القياسية، بما في ذلك PASCAL VOC 2012 وMS COCO 2014، كما يُظهر توافقًا مع الطرق الأخرى لـ WSSS. الكود: https://github.com/NVlabs/SemPLeS.