منذ 11 أيام

CLIP هو أيضًا مُقسِّم فعّال: نهج يُحدَّد بالنص للفصل الدلالي المُراقب بشكل ضعيف

Yuqi Lin, Minghao Chen, Wenxiao Wang, Boxi Wu, Ke Li, Binbin Lin, Haifeng Liu, Xiaofei He

الملخص

التقسيم الدلالي الضعيف التدريب (WSSS) باستخدام تسميات على مستوى الصورة يُعد مهمة صعبة. تتبع الطرق الشائعة إطارًا متعدد المراحل، وتتعرض لتكاليف تدريب عالية. في هذه الورقة، نستكشف الإمكانات المتوفرة في نماذج التدريب المسبق للغة والصورة المتميزة (CLIP) لتحديد فئات مختلفة باستخدام فقط تسميات على مستوى الصورة، دون الحاجة إلى تدريب إضافي. لاستخراج أقنعة تقسيم عالية الجودة من CLIP بكفاءة، نقترح إطارًا جديدًا لـ WSSS يُسمى CLIP-ES. يُحسّن إطارنا جميع المراحل الثلاث في WSSS من خلال تصميمات خاصة مُعتمدة على CLIP: 1) نُدخل دالة الـ softmax في GradCAM، ونستغل القدرة على التحديد الصفر (zero-shot) في CLIP لتقليل التباس الفئات غير المستهدفة والخلفيات. وفي الوقت نفسه، للاستفادة القصوى من CLIP، نعيد استكشاف إدخالات النصوص في سياق WSSS، ونُصمم استراتيجيتين مُوجهتين بالنص: اختيار النصوص بناءً على الحدة (sharpness-based prompt selection) ودمج المرادفات (synonym fusion). 2) لتبسيط مرحلة تحسين خرائط التفاعل (CAM)، نقترح وحدة ترابط مُعتمدة على الانتباه المُوجّه بالفئة (CAA) في الوقت الفعلي، مبنية على آلية الانتباه الذاتي متعدد الرؤوس (MHSA) المُضمنة في CLIP-ViTs. 3) عند تدريب نموذج التقسيم النهائي باستخدام الأقنعة المُولَّدة من CLIP، نُقدّم دالة خسارة موجهة بالثقة (CGL) تركز على المناطق الموثوقة. تحقق CLIP-ES أداءً متفوقًا على مستوى الحالة (SOTA) على مجموعتي بيانات Pascal VOC 2012 وMS COCO 2014، مع استهلاكها فقط 10٪ من الوقت المطلوب من الطرق السابقة لإنشاء الأقنعة الاصطناعية. يمكن الوصول إلى الكود من خلال الرابط: https://github.com/linyq2117/CLIP-ES.