HyperAIHyperAI
منذ 11 أيام

شبكة المُتَّصِل الجانبي للتفصيل الدلالي ذي المفردات المفتوحة

Mengde Xu, Zheng Zhang, Fangyun Wei, Han Hu, Xiang Bai
شبكة المُتَّصِل الجانبي للتفصيل الدلالي ذي المفردات المفتوحة
الملخص

تقدم هذه الورقة إطارًا جديدًا للتصنيف الدلالي المفتوح المفرد (open-vocabulary semantic segmentation) باستخدام نموذج الرؤية واللغة المُدرَّب مسبقًا، ويُسمَّى شبكة المُثبت الجانبي (Side Adapter Network - SAN). يُعامل نهجنا مهمة التصنيف الدلالي كمشكلة تمييز مناطق، حيث يتم إرفاق شبكة جانبيّة بنموذج CLIP المُجمَّد (frozen CLIP) من خلال فرعين: الأول يُقدّم اقتراحات للأقنعة (mask proposals)، والثاني يُقدّم تحيّز الانتباه (attention bias) الذي يُطبَّق في نموذج CLIP لتمييز فئة الأقنعة. يتميّز هذا التصميم المنفصل (decoupled design) بتمكين CLIP من التمييز بدقة لفئة اقتراحات الأقنعة. وبما أن الشبكة الجانبية يمكنها إعادة استخدام الميزات المستخرجة من CLIP، فإنها تكون خفيفة جدًا. علاوة على ذلك، يمكن تدريب الشبكة الكاملة بطريقة end-to-end، مما يسمح للشبكة الجانبية بالتكيف مع نموذج CLIP المُجمَّد، ما يجعل اقتراحات الأقنعة المُتنبأ بها مُدرَّكة لـ CLIP (CLIP-aware). يتميّز نهجنا بالسرعة والدقة، ويضيف فقط عددًا قليلاً من المعلمات القابلة للتدريب. تم تقييم أسلوبنا على عدة معايير لتصنيف الدلالي. وقد أظهرت النتائج تفوقًا كبيرًا على الأساليب الأخرى، مع تقليل يصل إلى 18 مرة في عدد المعلمات القابلة للتدريب، وسرعة استنتاج تصل إلى 19 مرة أسرع. نأمل أن يُشكّل هذا الأسلوب قاعدة صلبة (solid baseline) ويساهم في تسهيل الأبحاث المستقبلية في مجال التصنيف الدلالي المفتوح المفرد. سيتم نشر الشفرة المصدرية على الرابط التالي: https://github.com/MendelXu/SAN.

شبكة المُتَّصِل الجانبي للتفصيل الدلالي ذي المفردات المفتوحة | أحدث الأوراق البحثية | HyperAI