نموذج بسيط كأساس للتقسيم الدلالي المفتوح مع نموذج رؤية-لغة مسبق التدريب

في الآونة الأخيرة، أظهر تصنيف الصور المفتوح المفردات من خلال التدريب المسبق للرؤية واللغة إنجازات مذهلة، حيث يمكن للنموذج تصنيف فئات عشوائية دون رؤية صور إضافية مشمولة بالتعليقات لتلك الفئة. ومع ذلك، لا يزال غير واضح كيف يمكن جعل التعرف المفتوح المفردات يعمل بشكل جيد على المشكلات البصرية الأوسع. يستهدف هذا البحث تطبيق تقسيم الدلالة المفتوح المفردات من خلال بنائه على نموذج رؤية-لغة مُدرب مسبقًا (CLIP). ومع ذلك، فإن تقسيم الدلالة ونموذج CLIP يعملان بتفصيل بصري مختلف، حيث أن تقسيم الدلالة يعالج على مستوى البكسل بينما يقوم CLIP بمعالجة الصور ككل. لحل الاختلاف في مستوى المعالجة، نرفض استخدام الإطار الشائع القائم على الشبكة العصبية الكاملة الارتباط (FCN) في مرحلة واحدة، ونقترح إطارًا لتقسيم الدلالة يتكون من مرحلتين، حيث تقوم المرحلة الأولى باستخراج اقتراحات الأقنعة القابلة للتعميم والمرحلة الثانية باستغلال نموذج CLIP القائم على الصورة لأداء تصنيف مفتوح المفردات على القطع المصورة التي تم توليدها في المرحلة الأولى. تظهر نتائج تجاربنا أن هذا الإطار ذو المرحلتين يمكنه تحقيق أداء أفضل من FCN عند التدريب فقط على مجموعة بيانات COCO Stuff وتقييمه على مجموعات بيانات أخرى دون إعادة التuning. بالإضافة إلى ذلك، يتفوق هذا الإطار البسيط بكثير على أفضل النماذج السابقة في تقسيم الدلالة بدون تصوير (zero-shot) بمقدار كبير: +29.5 نقطة في مؤشر IoU المحسوب حسابيًا (hIoU) على مجموعة بيانات Pascal VOC 2012، و+8.9 نقطة في hIoU على مجموعة بيانات COCO Stuff. مع بساطته وأدائه القوي، نأمل أن يكون هذا الإطار قاعدة أساسية تسهل البحث المستقبلي. تم جعل الكود متاحًا للجمهور عبر الرابط: \url{https://github.com/MendelXu/zsseg.baseline}.