HyperAIHyperAI

Command Palette

Search for a command to run...

CRIS: تقسيم الصور المرجعي بقيادة CLIP

Wang Zhaoqing ; Lu Yu ; Li Qiang ; Tao Xunqiang ; Guo Yandong ; Gong Mingming ; Liu Tongliang

الملخص

التمييز بين الصور بالرجوع إلى التعبير اللغوي الطبيعي يهدف إلى تقسيم المراجع عبر تعبير لغوي طبيعي. نظرًا لاختلاف خصائص البيانات بين النص والصورة، فإن تحقيق مواءمة جيدة بين الخصائص النصية والبيكسلية يعد تحديًا كبيرًا للشبكات العصبية. تستخدم الأساليب الحالية نماذج مسبقة التدريب لتسهيل التعلم، ولكنها تقوم بنقل المعرفة اللغوية/البصرية من هذه النماذج بشكل منفصل، مما يؤدي إلى إغفال المعلومات المرتبطة متعددة الوسائط. مستوحى من التقدم الحديث في التدريب المقارن للغة والصور (CLIP)، نقترح في هذا البحث إطار عمل شامل مدفوع بـ CLIP للتمييز بين الصور بالرجوع إلى النص (CRIS). لتحقيق نقل فعال للمعرفة متعددة الوسائط، يستخدم CRIS فك رموز اللغة والرؤية وتعلمًا تضاديًا لتحقيق المواءمة بين النص والبيكسل. وبشكل أكثر تحديدًا، قمنا بتصميم محول فك الرموز البصري-اللغوي لنشر المعلومات الدلالية الدقيقة من التمثيلات النصية إلى كل تنشيط على مستوى البيكسل، مما يعزز الاتساق بين الوسيلتين. بالإضافة إلى ذلك، نقدم تعلمًا تضاديًا بين النص والبيكسل لإجبار ميزات النص على أن تكون مشابهة لميزات البيكسل ذات الصلة وغير مشابهة لما لا يتعلق بها. أظهرت نتائج التجارب على ثلاثة مجموعات بيانات مرجعية أن الإطار العمل المقترح يتفوق بشكل كبير على الأداء الحالي الأكثر تقدمًا دون أي معالجة ما بعد. سيتم إطلاق الكود.请注意,这里有一些专有名词的翻译:- Contrastive Language-Image Pretraining (CLIP) -> التدريب المقارن للغة والصور (CLIP)- CLIP-Driven Referring Image Segmentation framework (CRIS) -> إطار عمل شامل مدفوع بـ CLIP للتمييز بين الصور بالرجوع إلى النص (CRIS)这些翻译保持了专业性和准确性,同时在括号中保留了英文原名以确保信息完整。


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp