HyperAIHyperAI

Command Palette

Search for a command to run...

التمييز الشامل للصور مع قاموس مفتوح باستخدام MaskCLIP

Zheng Ding Jieke Wang Zhuowen Tu

الملخص

في هذا البحث، نتناول مهمة جديدة في مجال رؤية الحاسوب تُعرف بـ "التفتيش الشامل للصور بمفردات مفتوحة" (Open-Vocabulary Universal Image Segmentation)، والتي تهدف إلى تنفيذ التفتيش الدلالي/التفتيش المثلي/التفتيش البانورامي (تصنيف الخلفية دلالياً + تفتيش المقدمات حسب الحالات) لفئات عشوائية من الوصف النصي خلال مرحلة الاستدلال. أولاً، نقوم ببناء طريقة أساسية من خلال استخدام نماذج CLIP المدربة مسبقًا مباشرة دون إعادة تدريب أو تقفيل. ثم، نطور MaskCLIP، وهي طريقة تعتمد على محولات (Transformers) مع مُشفِّر بصرية MaskCLIP، وهو وحدة تشفر فقط تقوم بدمج سلس لرموز الأقنعة مع نموذج ViT CLIP المدرب مسبقًا لأغراض التفتيش الدلالي والتفتيش حسب الحالات والتوقع الفئوي. يتعلم MaskCLIP كيفية استغلال كفاءة وكفاءة عالية لميزات CLIP الجزئية/الكثيفة المدربة مسبقًا داخل مُشفِّر MaskCLIP البصري، مما يتجنب عملية التدريب الطويلة بين الطالب والمعلم. حقق MaskCLIP تفوُّقاً على الطرق السابقة في التفتيش الدلالي/المثلي/البانورامي على قواعد بيانات ADE20K وPASCAL. كما نقدم أمثلة نوعية لـ MaskCLIP باستخدام فئات مخصصة عبر الإنترنت. موقع المشروع: https://maskclip.github.io.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp