Command Palette
Search for a command to run...
MasQCLIP للتحليل الصوتي المفتوح النطاق للانقسام الصوري الشامل
MasQCLIP للتحليل الصوتي المفتوح النطاق للانقسام الصوري الشامل
Zhuowen Tu Zheng Ding Tianyi Xiong Xin Xu
الملخص
نقدّم طريقة جديدة للتقسيم الصوتي الشامل المفتوح المفرد، التي تُتيح إجراء التقسيم الفردي، والمعنوي، والبانيبتيك (الشامل) ضمن إطار موحد. تُسمّى هذه الطريقة MasQCLIP، وهي تتكامل بسلاسة مع نموذج CLIP المُدرّب مسبقًا من خلال استغلال ميزاته الكثيفة، مما يُجنب الحاجة إلى تدريب مكثّف للبارامترات. تُركّز MasQCLIP على جوانب جديدة عند بناء أسلوب تقسيم الصور باستخدام نموذج CLIP: 1) وحدة طالب-مُدرّس لمعالجة الأقنعة الخاصة بالفئات الجديدة (غير المرئية) من خلال استخلاص المعلومات من الفئات الأساسية (المرئية)؛ 2) عملية تحسين دقيق (fine-tuning) لتحديث بارامترات النموذج بالنسبة لاستفسارات Q داخل نموذج CLIP. بفضل هذين التصميمين البسيطين والواضحين، تُحقّق MasQCLIP أداءً متفوّقًا على مستوى الحد الأقصى في المجال (state-of-the-art) مع تفوّق ملحوظ على الطرق المنافسة بفارق كبير في جميع المهام الثلاثة، بما في ذلك التقسيم الفردي المفتوح المفرد، والتقسيم المعنوي، والتقسيم البانيبتيك. يمكن زيارة الصفحة الرسمية للمشروع من خلال الرابط: https://masqclip.github.io/.