HyperAIHyperAI

Command Palette

Search for a command to run...

استخراج العلامات الكثيفة المجانية من CLIP

Chong Zhou Chen Change Loy Bo Dai

الملخص

حققت تقنية التدريب المقارن للغة والصورة (CLIP) تقدماً ملحوظاً في مجال التعرف على الصور بدون إشراف باستخدام مفردات مفتوحة. استغلت العديد من الدراسات الحديثة النماذج المدربة مسبقاً لـ CLIP في تصنيف وتعديل الصور على مستوى الصورة. في هذا البحث، نرغب في دراسة الإمكانات الجوهرية لـ CLIP في التنبؤ الكثيف على مستوى البكسل، وبشكل خاص في التجزئة الدلالية. لهذا الغرض، ومع إجراء تعديلات بسيطة للغاية، نوضح أن MaskCLIP يحقق نتائج مقنعة في التجزئة على مفاهيم مفتوحة عبر مجموعة متنوعة من قواعد البيانات وفي غياب التعليقات والضبط الدقيق. عن طريق إضافة التسمية الوهمية والتدريب الذاتي، يتفوق MaskCLIP+ بشكل كبير على أفضل طرق التجزئة الدلالية بدون إشراف بالانتقال، حيث تتحسن مقاييس IoU المتوسطة للمفاهيم غير المرئية على PASCAL VOC/PASCAL Context/COCO Stuff من 35.6/20.7/30.3 إلى 86.1/66.7/54.7. كما نختبر صلابة MaskCLIP عند حدوث تشويه في المدخلات وتقييم قدرته على تمييز الأشياء ذات الأصناف الدقيقة والمفاهيم الجديدة. تقترح نتائجنا أن MaskCLIP يمكن أن يُعد مصدر إشراف جديد وموثوق به لتحقيق تجزئة بدون تعليقات في المهام الكثيفة للتنبؤ. الرمز المصدر متاح على https://github.com/chongzhou96/MaskCLIP.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp