SegCLIP: تجميع اللوحة مع مراكز قابلة للتعلم للتقسيم الدلالي المفتوح المفرد

في الآونة الأخيرة، أظهرت التدريب المقابل بين اللغة والصورة، مثل نموذج CLIP، نتائج واعدة في مجموعة متنوعة من المهام اللاحقة. إذ يمكن للنموذج المُدرّب مسبقًا اكتساب مفاهيم بصرية غنية للصور من خلال التعلّم من كمّ كبير من البيانات النصية-الصورية. ومع ذلك، لا يزال نقل المعرفة البصرية المكتسبة إلى تصنيف التجزئة ذات المفردات المفتوحة (open-vocabulary semantic segmentation) موضوعًا غير مستكشف بشكل كافٍ. في هذه الورقة، نقترح نموذجًا مبنيًا على CLIP يُسمّى SegCLIP، لمعالجة موضوع التجزئة ذات المفردات المفتوحة بطريقة لا تتطلب تسمية توضيحية (annotation-free). يعتمد SegCLIP على معمارية ViT، والفكر الأساسي فيه هو جمع اللوحات (patches) ذات المراكز القابلة للتعلّم إلى مناطق ذات دلالة بصرية من خلال التدريب على أزواج النص والصورة. يُمكن لعملية الجمع هذه التقاط المجموعات الدلالية ديناميكيًا، والتي تُستخدم لتكوين نتائج التجزئة النهائية. كما نقترح بشكل إضافي خسارة إعادة بناء على اللوحات المُقنّعة (masked patches)، وخسارة KL قائمة على المربعات الفائقة (superpixel-based KL loss) باستخدام تسميات وهمية (pseudo-labels)، بهدف تعزيز التمثيل البصري. أظهرت النتائج التجريبية أن نموذجنا يحقق دقة تجزئة مماثلة أو أفضل مقارنةً بالأساليب السابقة على مجموعات البيانات PASCAL VOC 2012 (+0.3% mIoU)، وPASCAL Context (+2.3% mIoU)، وCOCO (+2.2% mIoU). ونُطلق الكود المصدري عبر الرابط: https://github.com/ArrowLuo/SegCLIP.