ProxyCLIP: الانتباه الوكيل يحسن CLIP للتقسيم المفتوح المفردات

التمييز الدلالي المفتوح يتطلب من النماذج دمج التمثيلات البصرية مع العلامات الدلالية المفتوحة بشكل فعال. بينما تتألق نماذج التدريب المسبق المقارن للغة والصورة (CLIP) في تحديد المفاهيم البصرية من النص، فإنها غالباً ما تعاني من عدم تماسك الأقسام بسبب قدرتها المحدودة على التوطين. بالمقابل، تتفوق نماذج الأساس البصري (VFMs) في الحصول على تمثيلات بصرية محلية متسقة فضائياً، ولكنها تفتقر إلى الفهم الدلالي. يقدم هذا البحث إطار عمل جديد يُسمى ProxyCLIP، وهو مصمم لتوافق نقاط القوة بين CLIP و VFMs، مما يساعد في تحسين التمييز الدالي المفتوح. يستخدم ProxyCLIP التوافق بين الخصائص الفضائية من VFMs كنوع من الانتباه الوكيل لتعزيز CLIP، وبالتالي يرث القدرة القوية على التماسك المحلي من VFMs ويحافظ على قدرة CLIP الاستثنائية على النقل بدون تدريب (zero-shot transfer). نقترح استراتيجية تطبيع وتغطية متكيفة للحصول على انتباه الوكيل من VFMs، مما يسمح بالتكيف عبر مختلف نماذج VFMs. بشكل ملحوظ، كأسلوب خالٍ من التدريب، يحسن ProxyCLIP المتوسط الحسابي لتقاطع فوق الاتحاد (mIoU) بمقدار كبير عبر ثماني مقاييس من 40.3 إلى 44.4، مما يظهر فعاليته الاستثنائية في جسر الفجوة بين الدقة الفضائية والثراء الدلالي للمهمة التمييز الدالي المفتوح.