HyperAIHyperAI
منذ 2 أشهر

ضبط الأقنعة عالية الجودة مهم للتقسيم المفتوح للمفردات

Quan-Sheng Zeng; Yunheng Li; Daquan Zhou; Guanbin Li; Qibin Hou; Ming-Ming Cheng
ضبط الأقنعة عالية الجودة مهم للتقسيم المفتوح للمفردات
الملخص

تم تطوير تقسيم الصور المفتوح-المفردات من خلال التكامل بين مولدات الأقنعة ونماذج الرؤية-اللغة مثل التدريب المسبق للغة والصورة بالمقارنة (CLIP). كانت النهج السابقة تركز على إنتاج الأقنعة مع مواءمة خصائص الأقنعة مع التضمينات النصية أثناء التدريب. في هذا البحث، لاحظنا أن الاعتماد على أقنعة منخفضة الجودة تم إنتاجها يمكن أن يضعف مواءمة الرؤية واللغة في التمثيلات الإقليمية. وهذا يدفعنا إلى تقديم إطار جديد للتحسين الدقيق، يُسمى MaskCLIP++، يستخدم أقنعة الحقيقة الأرضية بدلاً من الأقنعة المنتجة لتعزيز قدرة CLIP على تصنيف الأقنعة. نظرًا للمحدودية في تنوع مجموعات البيانات الخاصة بتقسيم الصور التي تحتوي على شروحات للأقنعة، نقترح دمج مبدأ المواءمة الثابتة أثناء التحسين الدقيق، مما يخفف الانحياز الفئوي نحو مجموعة البيانات المستخدمة في التحسين الدقيق. بعد عملية تحسين دقيقة ذات تكلفة منخفضة، يحقق MaskCLIP++ تحسنًا كبيرًا في أداء تصنيف الأقنعة على مجموعات بيانات متعددة المجالات. عند الجمع بينه وبين مولد الأقنعة في الطرق الحديثة القائمة على الأقنعة لتقسيم المفردات المفتوحة، نحقق تحسينات في الأداء بمقدار +1.7، +2.3، +2.1، +3.1 و+0.3 mIoU على مجموعات البيانات A-847، PC-459، A-150، PC-59 وPAS-20 على التوالي. الكود متاح عبر الرابط: https://github.com/HVision-NKU/MaskCLIPpp .

ضبط الأقنعة عالية الجودة مهم للتقسيم المفتوح للمفردات | أحدث الأوراق البحثية | HyperAI