التمييز الشامل للصور مع قاموس مفتوح باستخدام MaskCLIP

في هذا البحث، نتناول مهمة جديدة في مجال رؤية الحاسوب تُعرف بـ "التفتيش الشامل للصور بمفردات مفتوحة" (Open-Vocabulary Universal Image Segmentation)، والتي تهدف إلى تنفيذ التفتيش الدلالي/التفتيش المثلي/التفتيش البانورامي (تصنيف الخلفية دلالياً + تفتيش المقدمات حسب الحالات) لفئات عشوائية من الوصف النصي خلال مرحلة الاستدلال. أولاً، نقوم ببناء طريقة أساسية من خلال استخدام نماذج CLIP المدربة مسبقًا مباشرة دون إعادة تدريب أو تقفيل. ثم، نطور MaskCLIP، وهي طريقة تعتمد على محولات (Transformers) مع مُشفِّر بصرية MaskCLIP، وهو وحدة تشفر فقط تقوم بدمج سلس لرموز الأقنعة مع نموذج ViT CLIP المدرب مسبقًا لأغراض التفتيش الدلالي والتفتيش حسب الحالات والتوقع الفئوي. يتعلم MaskCLIP كيفية استغلال كفاءة وكفاءة عالية لميزات CLIP الجزئية/الكثيفة المدربة مسبقًا داخل مُشفِّر MaskCLIP البصري، مما يتجنب عملية التدريب الطويلة بين الطالب والمعلم. حقق MaskCLIP تفوُّقاً على الطرق السابقة في التفتيش الدلالي/المثلي/البانورامي على قواعد بيانات ADE20K وPASCAL. كما نقدم أمثلة نوعية لـ MaskCLIP باستخدام فئات مخصصة عبر الإنترنت. موقع المشروع: https://maskclip.github.io.