منذ 8 أشهر

الملخص

في هذا البحث، نتناول مهمة جديدة في مجال رؤية الحاسوب تُعرف بـ "التفتيش الشامل للصور بمفردات مفتوحة" (Open-Vocabulary Universal Image Segmentation)، والتي تهدف إلى تنفيذ التفتيش الدلالي/التفتيش المثلي/التفتيش البانورامي (تصنيف الخلفية دلالياً + تفتيش المقدمات حسب الحالات) لفئات عشوائية من الوصف النصي خلال مرحلة الاستدلال. أولاً، نقوم ببناء طريقة أساسية من خلال استخدام نماذج CLIP المدربة مسبقًا مباشرة دون إعادة تدريب أو تقفيل. ثم، نطور MaskCLIP، وهي طريقة تعتمد على محولات (Transformers) مع مُشفِّر بصرية MaskCLIP، وهو وحدة تشفر فقط تقوم بدمج سلس لرموز الأقنعة مع نموذج ViT CLIP المدرب مسبقًا لأغراض التفتيش الدلالي والتفتيش حسب الحالات والتوقع الفئوي. يتعلم MaskCLIP كيفية استغلال كفاءة وكفاءة عالية لميزات CLIP الجزئية/الكثيفة المدربة مسبقًا داخل مُشفِّر MaskCLIP البصري، مما يتجنب عملية التدريب الطويلة بين الطالب والمعلم. حقق MaskCLIP تفوُّقاً على الطرق السابقة في التفتيش الدلالي/المثلي/البانورامي على قواعد بيانات ADE20K وPASCAL. كما نقدم أمثلة نوعية لـ MaskCLIP باستخدام فئات مخصصة عبر الإنترنت. موقع المشروع: https://maskclip.github.io.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار