التحليل الدلالي ذي المفاهيم المفتوحة باستخدام CLIP المُعدّل بالقناع

تهدف التجزئة الدلالية المفتوحة المفردات إلى تقسيم الصورة إلى مناطق دلالية وفقًا لوصف نصي قد لا يكون قد ظهر أثناء التدريب. تُعد الطرق ذات المرحلة الثانية الحديثة التي تُستخدم في هذا المجال هي إنشاء اقتراحات لحدود (ماسكات) غير مرتبطة بفئة معينة، ثم الاستفادة من نماذج الرؤية واللغة المُدرّبة مسبقًا، مثل CLIP، لتصنيف المناطق التي تم تغطيتها. نحن نُحدد أن العقبة الرئيسية في أداء هذا النموذج هي نموذج CLIP المُدرّب مسبقًا، نظرًا لأنه لا يُظهر أداءً جيدًا عند التعامل مع الصور المُغطاة. ولحل هذه المشكلة، نقترح تدريب نموذج CLIP بشكل مُخصص على مجموعة من المناطق المغطاة في الصور ووصفها النصي المقابل. يتم جمع بيانات التدريب من خلال استغلال مجموعة بيانات صور-وصف موجودة مسبقًا (مثل COCO Captions)، باستخدام CLIP لربط مناطق الصور المغطاة بالأسماء المفردة (الاسماء المفردة) الواردة في وصف الصور. بالمقارنة مع بيانات التدريب الأكثر دقة والمضمنة يدويًا والتي تقتصر على فئات ثابتة (مثل COCO-Stuff)، نلاحظ أن مجموعة البيانات الصاخبة ولكن المتنوعة التي نستخدمها يمكنها الحفاظ بشكل أفضل على قدرة CLIP على التعميم. إلى جانب تدريب النموذج بالكامل، نستخدم مناطق "الفراغ" في الصور المغطاة باستخدام طريقة نسميها "تعديل المُوجه المُغطى" (mask prompt tuning). تُظهر التجارب أن تعديل المُوجه المُغطى يُحدث تحسنًا كبيرًا دون الحاجة إلى تعديل أي أوزان في CLIP، ويمكنه حتى تحسين النموذج المُدرّب بالكامل. وبشكل خاص، عند تدريب النموذج على مجموعة COCO وتجريبه على ADE20K-150، يحقق أفضل نموذج لدينا 29.6% من mIoU، أي زيادة قدرها +8.5% مقارنة بأفضل نموذج سابق. لأول مرة، تُنافس النماذج العامة المفتوحة المفردات أداء النماذج المتخصصة المُدرّبة بإشراف في عام 2017، دون الحاجة إلى أي تعديلات مخصصة حسب مجموعة البيانات.