HyperAIHyperAI

Command Palette

Search for a command to run...

فكّك التجزئة الدلالية صفر-الإدخال

Jian Ding Nan Xue Gui-Song Xia Dengxin Dai

الملخص

يهدف التجزئة الدلالية الصفرية (ZS3) إلى تجزئة الفئات الجديدة التي لم تُرَ خلال التدريب. تُصاغ الدراسات الحالية لـ ZS3 على أنها مشكلة تصنيف صفرية على مستوى البكسل، حيث يتم نقل المعرفة الدلالية من الفئات المرئية إلى غير المرئية باستخدام نماذج لغوية تم تدريبها فقط على النصوص. وعلى الرغم من بساطتها، تُظهر صيغة ZS3 على مستوى البكسل قدرة محدودة على دمج نماذج الرؤية واللغة التي تُدرَّب غالبًا على أزواج صورة-نص، والتي تُظهر حاليًا إمكانات كبيرة في المهام البصرية. مستوحى من الملاحظة التي تشير إلى أن البشر غالبًا ما يقومون بتسمية دلالية على مستوى التجزئات، نقترح فصل ZS3 إلى مهام فرعية اثنتين: 1) مهمة تجميع غير مرتبطة بالفئة لدمج البكسلات في تجزئات. 2) مهمة تصنيف صفرية على مستوى التجزئات. تُعد المهمة الأولى غير متعلقة بمعلومات الفئة، ويمكن نقلها مباشرة لدمج البكسلات في فئات غير مرئية. أما المهمة الثانية، فهي تُنفَّذ على مستوى التجزئات، وتوفر طريقة طبيعية للاستفادة من النماذج الكبيرة لرؤية-لغة المُدرَّبة على أزواج صورة-نص (مثل CLIP) في ZS3. استنادًا إلى هذا التفكك، نُقدِّم نموذجًا بسيطًا وفعّالًا للتجزئة الدلالية الصفرية، يُسمَّى ZegFormer، والذي يتفوّق على الطرق السابقة في معايير المعايير القياسية لـ ZS3 بفارق كبير، مثلاً بـ 22 نقطة على PASCAL VOC و3 نقاط على COCO-Stuff من حيث mIoU للفئات غير المرئية. سيتم إتاحة الكود على الرابط: https://github.com/dingjiansw101/ZegFormer.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
فكّك التجزئة الدلالية صفر-الإدخال | مستندات | HyperAI