HyperAIHyperAI
منذ 12 أيام

توجيه التجميع المقنع باستخدام المُقدِّمات البصرية والنصية للفئة القليلة من التجزئة وخارجها

Chen Shuai, Meng Fanman, Zhang Runtong, Qiu Heqian, Li Hongliang, Wu Qingbo, Xu Linfeng
توجيه التجميع المقنع باستخدام المُقدِّمات البصرية والنصية للفئة القليلة من التجزئة وخارجها
الملخص

يهدف التجزئة القليلة الأمثل (FSS) إلى تجزئة الفئات الجديدة باستخدام عدد قليل من الصور المُعلَّمة. وبسبب المزايا التي يمتلكها نموذج CLIP في محاذاة المعلومات البصرية والنصية، فإن دمج CLIP يمكن أن يعزز قدرة النموذج على التعميم في مهام FSS. ومع ذلك، حتى مع استخدام نموذج CLIP، تظل الطرق الحالية القائمة على CLIP عرضة لتنبؤات متحيزة تجاه الفئات الأساسية، وهو ما يُعزى إلى التفاعلات على مستوى الميزات المحددة للفئة. ولحل هذه المشكلة، نقترح شبكة تجميع قناع مُوجهة بالبُعد البصري والنصي (PGMA-Net). تعتمد هذه الشبكة على عملية تجميع قناع غير مُحددة للفئة لتقليل التحيز، وتحوّل المهام المتنوعة إلى نموذج موحد من خلال تجميع البُعد عبر الترابط. بشكل محدد، يتم تحويل الميزات البصرية والنصية المرتبطة بالفئة إلى بُعد غير مُحدد للفئة على شكل خريطة احتمالية. ثم نُقدّم وحدة تجميع قناع مُوجهة بالبُعد (PGMAM) تتضمن وحدات تجميع عامة متعددة (GAUs)، والتي تأخذ بعين الاعتبار تفاعلات متنوعة وقابلة للتطبيق مباشرة، مثل التفاعلات البصرية-النصية، والتداخلية والداخلية بين الصور، والتفاعلات بدون تدريب، والتفاعلات من الدرجة العليا. وأخيرًا، لضمان القدرة على التعميم غير المُحددة للفئة، نُقدّم فكّاً هرميًا مزودًا بآلية إسقاط القناة (HDCDM)، والذي يُستخدم بشكل مرن في استغلال القناع المجمّع والميزات من المستوى المنخفض، دون الاعتماد على أي معلومات محددة للفئة. وتحقق الشبكة نتائج جديدة على مستوى الحد الأقصى من الأداء في مهمة FSS، مع تحقيق متوسط دقة التقاط (mIoU) قدره 77.6 على مجموعة PASCAL-5^i و59.4 على مجموعة COCO-20^i في سيناريو التجزئة بـ 1 صورة. علاوة على ذلك، نُظهر أن الشبكة المقترحة، دون الحاجة إلى إعادة تدريب إضافية، قادرة على حل مهام التجزئة على مستوى المربعات المحيطة (bbox-level)، والتجزئة عبر المجالات (cross-domain FSS)، والتجزئة المشتركة (co-segmentation)، والتجزئة الصفرية (ZSS)، مما يُمكّنها من تمثيل إطار عمل مرن للتجزئة بأي عدد من الصور (any-shot segmentation).

توجيه التجميع المقنع باستخدام المُقدِّمات البصرية والنصية للفئة القليلة من التجزئة وخارجها | أحدث الأوراق البحثية | HyperAI