HyperAIHyperAI
منذ 11 أيام

تمثيلات CLIP المُستندة إلى التعرف على الأقنعة للاستشعار الصفرية

Siyu Jiao, Yunchao Wei, Yaowei Wang, Yao Zhao, Humphrey Shi
تمثيلات CLIP المُستندة إلى التعرف على الأقنعة للاستشعار الصفرية
الملخص

في الآونة الأخيرة، أصبحت النماذج البصرية-اللغوية المُدرَّبة مسبقًا تُستخدم بشكل متزايد لمعالجة مهمة التجزئة صفرية المعرفة (zero-shot segmentation) الصعبة. تتبع الحلول النموذجية نموذجًا يبدأ بتكوين اقتراحات للخرائط (mask proposals)، ثم يُستخدم CLIP لتصنيفها. ولضمان قدرة CLIP على التحويل صفرية المعرفة، اعتمد الممارسات السابقة على تجميد CLIP أثناء التدريب. ومع ذلك، في هذه الورقة، نُشير إلى أن CLIP غير حساس تجاه اقتراحات الخرائط المختلفة، وغالبًا ما يُنتج تنبؤات متشابهة لاقتراحات خرائط متعددة لنفس الصورة. يؤدي هذا عدم الحساسية إلى عدد كبير من التنبؤات الخاطئة (false positives) عند تصنيف اقتراحات الخرائط. ويرجع هذا المشكل في الأساس إلى أن CLIP تم تدريبه باستخدام مراقبة على مستوى الصورة (image-level supervision). لمعالجة هذه المشكلة، نقترح طريقة بسيطة وفعّالة تُسمى التدريب الدقيق المُراعي للخرائط (Mask-aware Fine-tuning, MAFT). بشكل محدد، نُقدّم ما يُسمى بـ "مشفر CLIP المُراعي للاقتراحات الصورية" (Image-Proposals CLIP Encoder, IP-CLIP Encoder)، الذي يُعالج عدداً غير محدود من الصور واقتراحات الخرائط في آن واحد. ثم نصمم خسارة مُراعية للخرائط (mask-aware loss) وخسارة التعلم الذاتي (self-distillation loss) لتدريج مشفر IP-CLIP، مما يضمن أن يكون CLIP حساسًا للاختلافات بين اقتراحات الخرائط، دون التضحية بقدراته على التحويل الصفرية المعرفة. وبهذا، يمكن تعلّم تمثيلات مُراعية للخرائط بسهولة، مما يُبرز التنبؤات الصحيحة (true positives). ومن الملاحظ بارزًا أن حلنا يمكن دمجه بسلاسة في معظم الطرق الحالية دون إدخال أي معلمات جديدة أثناء عملية التدريب الدقيق. أجرينا تجارب واسعة على معايير التجزئة صفرية المعرفة الشهيرة. وباستخدام MAFT، تحسّنت أداء أحدث الطرق بشكل كبير: بزيادة 8.2% (إلى 50.4%) على COCO، و3.2% (إلى 81.8%) على Pascal-VOC، و4.3% (إلى 8.7%) على ADE20K، من حيث متوسط دقة التداخل بين التوقعات والواقع (mIoU) للصفوف غير المرئية. يمكن الوصول إلى الكود من خلال الرابط التالي: https://github.com/jiaosiyu1999/MAFT.git.

تمثيلات CLIP المُستندة إلى التعرف على الأقنعة للاستشعار الصفرية | أحدث الأوراق البحثية | HyperAI