HyperAIHyperAI

Command Palette

Search for a command to run...

ProxyCLIP: الانتباه الوكيل يحسن CLIP للتقسيم المفتوح المفردات

Mengcheng Lan; Chaofeng Chen; Yiping Ke; Xinjiang Wang; Litong Feng; Wayne Zhang

الملخص

التمييز الدلالي المفتوح يتطلب من النماذج دمج التمثيلات البصرية مع العلامات الدلالية المفتوحة بشكل فعال. بينما تتألق نماذج التدريب المسبق المقارن للغة والصورة (CLIP) في تحديد المفاهيم البصرية من النص، فإنها غالباً ما تعاني من عدم تماسك الأقسام بسبب قدرتها المحدودة على التوطين. بالمقابل، تتفوق نماذج الأساس البصري (VFMs) في الحصول على تمثيلات بصرية محلية متسقة فضائياً، ولكنها تفتقر إلى الفهم الدلالي. يقدم هذا البحث إطار عمل جديد يُسمى ProxyCLIP، وهو مصمم لتوافق نقاط القوة بين CLIP و VFMs، مما يساعد في تحسين التمييز الدالي المفتوح. يستخدم ProxyCLIP التوافق بين الخصائص الفضائية من VFMs كنوع من الانتباه الوكيل لتعزيز CLIP، وبالتالي يرث القدرة القوية على التماسك المحلي من VFMs ويحافظ على قدرة CLIP الاستثنائية على النقل بدون تدريب (zero-shot transfer). نقترح استراتيجية تطبيع وتغطية متكيفة للحصول على انتباه الوكيل من VFMs، مما يسمح بالتكيف عبر مختلف نماذج VFMs. بشكل ملحوظ، كأسلوب خالٍ من التدريب، يحسن ProxyCLIP المتوسط الحسابي لتقاطع فوق الاتحاد (mIoU) بمقدار كبير عبر ثماني مقاييس من 40.3 إلى 44.4، مما يظهر فعاليته الاستثنائية في جسر الفجوة بين الدقة الفضائية والثراء الدلالي للمهمة التمييز الدالي المفتوح.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp