HyperAIHyperAI

Command Palette

Search for a command to run...

شبكة المُتَّصِل الجانبي للتفصيل الدلالي ذي المفردات المفتوحة

Mengde Xu Zheng Zhang Fangyun Wei Han Hu Xiang Bai

الملخص

تقدم هذه الورقة إطارًا جديدًا للتصنيف الدلالي المفتوح المفرد (open-vocabulary semantic segmentation) باستخدام نموذج الرؤية واللغة المُدرَّب مسبقًا، ويُسمَّى شبكة المُثبت الجانبي (Side Adapter Network - SAN). يُعامل نهجنا مهمة التصنيف الدلالي كمشكلة تمييز مناطق، حيث يتم إرفاق شبكة جانبيّة بنموذج CLIP المُجمَّد (frozen CLIP) من خلال فرعين: الأول يُقدّم اقتراحات للأقنعة (mask proposals)، والثاني يُقدّم تحيّز الانتباه (attention bias) الذي يُطبَّق في نموذج CLIP لتمييز فئة الأقنعة. يتميّز هذا التصميم المنفصل (decoupled design) بتمكين CLIP من التمييز بدقة لفئة اقتراحات الأقنعة. وبما أن الشبكة الجانبية يمكنها إعادة استخدام الميزات المستخرجة من CLIP، فإنها تكون خفيفة جدًا. علاوة على ذلك، يمكن تدريب الشبكة الكاملة بطريقة end-to-end، مما يسمح للشبكة الجانبية بالتكيف مع نموذج CLIP المُجمَّد، ما يجعل اقتراحات الأقنعة المُتنبأ بها مُدرَّكة لـ CLIP (CLIP-aware). يتميّز نهجنا بالسرعة والدقة، ويضيف فقط عددًا قليلاً من المعلمات القابلة للتدريب. تم تقييم أسلوبنا على عدة معايير لتصنيف الدلالي. وقد أظهرت النتائج تفوقًا كبيرًا على الأساليب الأخرى، مع تقليل يصل إلى 18 مرة في عدد المعلمات القابلة للتدريب، وسرعة استنتاج تصل إلى 19 مرة أسرع. نأمل أن يُشكّل هذا الأسلوب قاعدة صلبة (solid baseline) ويساهم في تسهيل الأبحاث المستقبلية في مجال التصنيف الدلالي المفتوح المفرد. سيتم نشر الشفرة المصدرية على الرابط التالي: https://github.com/MendelXu/SAN.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp