MasQCLIP للتحليل الصوتي المفتوح النطاق للانقسام الصوري الشامل

نقدّم طريقة جديدة للتقسيم الصوتي الشامل المفتوح المفرد، التي تُتيح إجراء التقسيم الفردي، والمعنوي، والبانيبتيك (الشامل) ضمن إطار موحد. تُسمّى هذه الطريقة MasQCLIP، وهي تتكامل بسلاسة مع نموذج CLIP المُدرّب مسبقًا من خلال استغلال ميزاته الكثيفة، مما يُجنب الحاجة إلى تدريب مكثّف للبارامترات. تُركّز MasQCLIP على جوانب جديدة عند بناء أسلوب تقسيم الصور باستخدام نموذج CLIP: 1) وحدة طالب-مُدرّس لمعالجة الأقنعة الخاصة بالفئات الجديدة (غير المرئية) من خلال استخلاص المعلومات من الفئات الأساسية (المرئية)؛ 2) عملية تحسين دقيق (fine-tuning) لتحديث بارامترات النموذج بالنسبة لاستفسارات Q داخل نموذج CLIP. بفضل هذين التصميمين البسيطين والواضحين، تُحقّق MasQCLIP أداءً متفوّقًا على مستوى الحد الأقصى في المجال (state-of-the-art) مع تفوّق ملحوظ على الطرق المنافسة بفارق كبير في جميع المهام الثلاثة، بما في ذلك التقسيم الفردي المفتوح المفرد، والتقسيم المعنوي، والتقسيم البانيبتيك. يمكن زيارة الصفحة الرسمية للمشروع من خلال الرابط: https://masqclip.github.io/.