CRIS: تقسيم الصور المرجعي بقيادة CLIP

التمييز بين الصور بالرجوع إلى التعبير اللغوي الطبيعي يهدف إلى تقسيم المراجع عبر تعبير لغوي طبيعي. نظرًا لاختلاف خصائص البيانات بين النص والصورة، فإن تحقيق مواءمة جيدة بين الخصائص النصية والبيكسلية يعد تحديًا كبيرًا للشبكات العصبية. تستخدم الأساليب الحالية نماذج مسبقة التدريب لتسهيل التعلم، ولكنها تقوم بنقل المعرفة اللغوية/البصرية من هذه النماذج بشكل منفصل، مما يؤدي إلى إغفال المعلومات المرتبطة متعددة الوسائط. مستوحى من التقدم الحديث في التدريب المقارن للغة والصور (CLIP)، نقترح في هذا البحث إطار عمل شامل مدفوع بـ CLIP للتمييز بين الصور بالرجوع إلى النص (CRIS). لتحقيق نقل فعال للمعرفة متعددة الوسائط، يستخدم CRIS فك رموز اللغة والرؤية وتعلمًا تضاديًا لتحقيق المواءمة بين النص والبيكسل. وبشكل أكثر تحديدًا، قمنا بتصميم محول فك الرموز البصري-اللغوي لنشر المعلومات الدلالية الدقيقة من التمثيلات النصية إلى كل تنشيط على مستوى البيكسل، مما يعزز الاتساق بين الوسيلتين. بالإضافة إلى ذلك، نقدم تعلمًا تضاديًا بين النص والبيكسل لإجبار ميزات النص على أن تكون مشابهة لميزات البيكسل ذات الصلة وغير مشابهة لما لا يتعلق بها. أظهرت نتائج التجارب على ثلاثة مجموعات بيانات مرجعية أن الإطار العمل المقترح يتفوق بشكل كبير على الأداء الحالي الأكثر تقدمًا دون أي معالجة ما بعد. سيتم إطلاق الكود.请注意,这里有一些专有名词的翻译:- Contrastive Language-Image Pretraining (CLIP) -> التدريب المقارن للغة والصور (CLIP)- CLIP-Driven Referring Image Segmentation framework (CRIS) -> إطار عمل شامل مدفوع بـ CLIP للتمييز بين الصور بالرجوع إلى النص (CRIS)这些翻译保持了专业性和准确性,同时在括号中保留了英文原名以确保信息完整。