HyperAIHyperAI

Command Palette

Search for a command to run...

CLIP هو أيضًا مُقسِّم فعّال: نهج يُحدَّد بالنص للفصل الدلالي المُراقب بشكل ضعيف

Yuqi Lin Minghao Chen Wenxiao Wang Boxi Wu Ke Li Binbin Lin Haifeng Liu Xiaofei He

الملخص

التقسيم الدلالي الضعيف التدريب (WSSS) باستخدام تسميات على مستوى الصورة يُعد مهمة صعبة. تتبع الطرق الشائعة إطارًا متعدد المراحل، وتتعرض لتكاليف تدريب عالية. في هذه الورقة، نستكشف الإمكانات المتوفرة في نماذج التدريب المسبق للغة والصورة المتميزة (CLIP) لتحديد فئات مختلفة باستخدام فقط تسميات على مستوى الصورة، دون الحاجة إلى تدريب إضافي. لاستخراج أقنعة تقسيم عالية الجودة من CLIP بكفاءة، نقترح إطارًا جديدًا لـ WSSS يُسمى CLIP-ES. يُحسّن إطارنا جميع المراحل الثلاث في WSSS من خلال تصميمات خاصة مُعتمدة على CLIP: 1) نُدخل دالة الـ softmax في GradCAM، ونستغل القدرة على التحديد الصفر (zero-shot) في CLIP لتقليل التباس الفئات غير المستهدفة والخلفيات. وفي الوقت نفسه، للاستفادة القصوى من CLIP، نعيد استكشاف إدخالات النصوص في سياق WSSS، ونُصمم استراتيجيتين مُوجهتين بالنص: اختيار النصوص بناءً على الحدة (sharpness-based prompt selection) ودمج المرادفات (synonym fusion). 2) لتبسيط مرحلة تحسين خرائط التفاعل (CAM)، نقترح وحدة ترابط مُعتمدة على الانتباه المُوجّه بالفئة (CAA) في الوقت الفعلي، مبنية على آلية الانتباه الذاتي متعدد الرؤوس (MHSA) المُضمنة في CLIP-ViTs. 3) عند تدريب نموذج التقسيم النهائي باستخدام الأقنعة المُولَّدة من CLIP، نُقدّم دالة خسارة موجهة بالثقة (CGL) تركز على المناطق الموثوقة. تحقق CLIP-ES أداءً متفوقًا على مستوى الحالة (SOTA) على مجموعتي بيانات Pascal VOC 2012 وMS COCO 2014، مع استهلاكها فقط 10٪ من الوقت المطلوب من الطرق السابقة لإنشاء الأقنعة الاصطناعية. يمكن الوصول إلى الكود من خلال الرابط: https://github.com/linyq2117/CLIP-ES.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp