منذ 11 أيام

فكّك التجزئة الدلالية صفر-الإدخال

Jian Ding, Nan Xue, Gui-Song Xia, Dengxin Dai

الملخص

يهدف التجزئة الدلالية الصفرية (ZS3) إلى تجزئة الفئات الجديدة التي لم تُرَ خلال التدريب. تُصاغ الدراسات الحالية لـ ZS3 على أنها مشكلة تصنيف صفرية على مستوى البكسل، حيث يتم نقل المعرفة الدلالية من الفئات المرئية إلى غير المرئية باستخدام نماذج لغوية تم تدريبها فقط على النصوص. وعلى الرغم من بساطتها، تُظهر صيغة ZS3 على مستوى البكسل قدرة محدودة على دمج نماذج الرؤية واللغة التي تُدرَّب غالبًا على أزواج صورة-نص، والتي تُظهر حاليًا إمكانات كبيرة في المهام البصرية. مستوحى من الملاحظة التي تشير إلى أن البشر غالبًا ما يقومون بتسمية دلالية على مستوى التجزئات، نقترح فصل ZS3 إلى مهام فرعية اثنتين: 1) مهمة تجميع غير مرتبطة بالفئة لدمج البكسلات في تجزئات. 2) مهمة تصنيف صفرية على مستوى التجزئات. تُعد المهمة الأولى غير متعلقة بمعلومات الفئة، ويمكن نقلها مباشرة لدمج البكسلات في فئات غير مرئية. أما المهمة الثانية، فهي تُنفَّذ على مستوى التجزئات، وتوفر طريقة طبيعية للاستفادة من النماذج الكبيرة لرؤية-لغة المُدرَّبة على أزواج صورة-نص (مثل CLIP) في ZS3. استنادًا إلى هذا التفكك، نُقدِّم نموذجًا بسيطًا وفعّالًا للتجزئة الدلالية الصفرية، يُسمَّى ZegFormer، والذي يتفوّق على الطرق السابقة في معايير المعايير القياسية لـ ZS3 بفارق كبير، مثلاً بـ 22 نقطة على PASCAL VOC و3 نقاط على COCO-Stuff من حيث mIoU للفئات غير المرئية. سيتم إتاحة الكود على الرابط: https://github.com/dingjiansw101/ZegFormer.