منذ 6 أشهر

الملخص

يهدف التجزئة القليلة الأمثل (FSS) إلى تجزئة الفئات الجديدة باستخدام عدد قليل من الصور المُعلَّمة. وبسبب المزايا التي يمتلكها نموذج CLIP في محاذاة المعلومات البصرية والنصية، فإن دمج CLIP يمكن أن يعزز قدرة النموذج على التعميم في مهام FSS. ومع ذلك، حتى مع استخدام نموذج CLIP، تظل الطرق الحالية القائمة على CLIP عرضة لتنبؤات متحيزة تجاه الفئات الأساسية، وهو ما يُعزى إلى التفاعلات على مستوى الميزات المحددة للفئة. ولحل هذه المشكلة، نقترح شبكة تجميع قناع مُوجهة بالبُعد البصري والنصي (PGMA-Net). تعتمد هذه الشبكة على عملية تجميع قناع غير مُحددة للفئة لتقليل التحيز، وتحوّل المهام المتنوعة إلى نموذج موحد من خلال تجميع البُعد عبر الترابط. بشكل محدد، يتم تحويل الميزات البصرية والنصية المرتبطة بالفئة إلى بُعد غير مُحدد للفئة على شكل خريطة احتمالية. ثم نُقدّم وحدة تجميع قناع مُوجهة بالبُعد (PGMAM) تتضمن وحدات تجميع عامة متعددة (GAUs)، والتي تأخذ بعين الاعتبار تفاعلات متنوعة وقابلة للتطبيق مباشرة، مثل التفاعلات البصرية-النصية، والتداخلية والداخلية بين الصور، والتفاعلات بدون تدريب، والتفاعلات من الدرجة العليا. وأخيرًا، لضمان القدرة على التعميم غير المُحددة للفئة، نُقدّم فكّاً هرميًا مزودًا بآلية إسقاط القناة (HDCDM)، والذي يُستخدم بشكل مرن في استغلال القناع المجمّع والميزات من المستوى المنخفض، دون الاعتماد على أي معلومات محددة للفئة. وتحقق الشبكة نتائج جديدة على مستوى الحد الأقصى من الأداء في مهمة FSS، مع تحقيق متوسط دقة التقاط (mIoU) قدره 77.6 على مجموعة PASCAL-5^i و59.4 على مجموعة COCO-20^i في سيناريو التجزئة بـ 1 صورة. علاوة على ذلك، نُظهر أن الشبكة المقترحة، دون الحاجة إلى إعادة تدريب إضافية، قادرة على حل مهام التجزئة على مستوى المربعات المحيطة (bbox-level)، والتجزئة عبر المجالات (cross-domain FSS)، والتجزئة المشتركة (co-segmentation)، والتجزئة الصفرية (ZSS)، مما يُمكّنها من تمثيل إطار عمل مرن للتجزئة بأي عدد من الصور (any-shot segmentation).

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Chen Shuai Meng Fanman Zhang Runtong Qiu Heqian Li Hongliang Wu Qingbo Xu Linfeng

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Chen Shuai Meng Fanman Zhang Runtong Qiu Heqian Li Hongliang Wu Qingbo Xu Linfeng

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Chen Shuai Meng Fanman Zhang Runtong Qiu Heqian Li Hongliang Wu Qingbo Xu Linfeng

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

توجيه التجميع المقنع باستخدام المُقدِّمات البصرية والنصية للفئة القليلة من التجزئة وخارجها

Chen Shuai Meng Fanman Zhang Runtong Qiu Heqian Li Hongliang Wu Qingbo Xu Linfeng

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

توجيه التجميع المقنع باستخدام المُقدِّمات البصرية والنصية للفئة القليلة من التجزئة وخارجها

Chen Shuai Meng Fanman Zhang Runtong Qiu Heqian Li Hongliang Wu Qingbo Xu Linfeng

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

توجيه التجميع المقنع باستخدام المُقدِّمات البصرية والنصية للفئة القليلة من التجزئة وخارجها

Chen Shuai Meng Fanman Zhang Runtong Qiu Heqian Li Hongliang Wu Qingbo Xu Linfeng

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters