Mask-Adapter: الشيطان في الأقنعة للتقسيم المفتوح للمفردات

الطرق الحديثة لتقسيم المفردات المفتوحة تعتمد على مولدات الأقنعة للتنبؤ بأقنعة التقسيم وتستفيد من نماذج الرؤية واللغة المدربة مسبقًا، مثل CLIP، لتصنيف هذه الأقنعة عبر تجميع الأقنعة. رغم أن هذه الطرق تظهر نتائج واعدة، إلا أنها تتعارض مع الحدس بأن الأقنعة الدقيقة غالبًا ما تفشل في إنتاج نتائج تصنيف دقيقة من خلال تجميع تمثيلات الصور الخاصة بـ CLIP داخل المناطق المعزولة بالقناع. في هذا البحث، نكشف عن حدود أداء تجميع الأقنعة ونقدم طريقة بسيطة ومعتبرة فعالة تُعرف باسم Mask-Adapter لمعالجة هذه التحديات في تقسيم المفردات المفتوحة. مقارنة باستخدام أقنعة المقترحات مباشرة، فإن Mask-Adapter المقترح يُستخرج منه خرائط التنشيط الدلالية من أقنعة المقترحات، مما يوفر معلومات سياقية أكثر غنى ويضمن التناسق بين الأقنعة و CLIP. بالإضافة إلى ذلك، نقترح خسارة ثبات القناع التي تشجع على حصول أقنعة المقترحات ذات معدل IoU المشابه على تمثيلات CLIP مشابهة لتعزيز صلابة النماذج أمام التنبؤات المختلفة للأقنعة. يتم دمج Mask-Adapter بسلاسة في طرق تقسيم المفردات المفتوحة المستندة إلى تجميع الأقنعة بطريقة "plug-and-play"، مما يؤدي إلى نتائج تصنيف أكثر دقة. التجارب الواسعة على عدة مقاييس بدون رصد (zero-shot) تظهر ارتفاعًا كبيرًا في الأداء للـ Mask-Adapter المقترح عند استخدامه مع عدة طرق محكمة. بشكل خاص، يمتد Mask-Adapter بشكل فعال أيضًا إلى SAM ويحقق نتائج مثيرة للإعجاب على عدة مجموعات بيانات لتقسيم المفردات المفتوحة. يمكن الوصول إلى الكود والنماذج عبر الرابط: https://github.com/hustvl/MaskAdapter.