HyperAIHyperAI
منذ 2 أشهر

استخراج العلامات الكثيفة المجانية من CLIP

Chong Zhou; Chen Change Loy; Bo Dai
استخراج العلامات الكثيفة المجانية من CLIP
الملخص

حققت تقنية التدريب المقارن للغة والصورة (CLIP) تقدماً ملحوظاً في مجال التعرف على الصور بدون إشراف باستخدام مفردات مفتوحة. استغلت العديد من الدراسات الحديثة النماذج المدربة مسبقاً لـ CLIP في تصنيف وتعديل الصور على مستوى الصورة. في هذا البحث، نرغب في دراسة الإمكانات الجوهرية لـ CLIP في التنبؤ الكثيف على مستوى البكسل، وبشكل خاص في التجزئة الدلالية. لهذا الغرض، ومع إجراء تعديلات بسيطة للغاية، نوضح أن MaskCLIP يحقق نتائج مقنعة في التجزئة على مفاهيم مفتوحة عبر مجموعة متنوعة من قواعد البيانات وفي غياب التعليقات والضبط الدقيق. عن طريق إضافة التسمية الوهمية والتدريب الذاتي، يتفوق MaskCLIP+ بشكل كبير على أفضل طرق التجزئة الدلالية بدون إشراف بالانتقال، حيث تتحسن مقاييس IoU المتوسطة للمفاهيم غير المرئية على PASCAL VOC/PASCAL Context/COCO Stuff من 35.6/20.7/30.3 إلى 86.1/66.7/54.7. كما نختبر صلابة MaskCLIP عند حدوث تشويه في المدخلات وتقييم قدرته على تمييز الأشياء ذات الأصناف الدقيقة والمفاهيم الجديدة. تقترح نتائجنا أن MaskCLIP يمكن أن يُعد مصدر إشراف جديد وموثوق به لتحقيق تجزئة بدون تعليقات في المهام الكثيفة للتنبؤ. الرمز المصدر متاح على https://github.com/chongzhou96/MaskCLIP.

استخراج العلامات الكثيفة المجانية من CLIP | أحدث الأوراق البحثية | HyperAI