HyperAIHyperAI

Command Palette

Search for a command to run...

SILC: تحسين التدريب المسبق للغة والرؤية من خلال التباعد الذاتي

Muhammad Ferjad Naeem Yongqin Xian Xiaohua Zhai Lukas Hoyer Luc Van Gool Federico Tombari

الملخص

أصبح التدريب المسبق للصورة والنص على مجموعات بيانات وسائط صور ونصوص واسعة النطاق هو المعيار الافتراضي لنموذج التصنيف والاسترجاع ذي المفردات المفتوحة بفضل نجاح نموذج CLIP ومتغيراته. كما استخدمت عدة أعمال ميزات CLIP في المهام التنبؤية الكثيفة، وأظهرت ظهور قدرات مفتوحة المجموعة (open-set). ومع ذلك، فإن الهدف التبايني المستخدم في هذه النماذج يركز فقط على التوافق بين الصورة والنص، ولا يشجع تعلم ميزات الصورة لمهام التنبؤ الكثيف. في هذه الدراسة، نقدم إطارًا جديدًا يُدعى SILC، لتدريب الرؤية واللغة. يُحسّن SILC التدريب التبايني بين الصورة والنص من خلال إضافة بسيطة تتمثل في تعلم التقابل المحلي-الكلي عبر التعلم الذاتي (self-distillation). ونُظهر أن استخلاص ميزات الصورة المحلية من نموذج معلم متوسط متحرك أساسي (EMA) يُحسّن بشكل كبير أداء النموذج في مهام التنبؤ الكثيف مثل الكشف والتقسيم، في الوقت الذي يُحسّن فيه أيضًا الأداء في المهام على مستوى الصورة مثل التصنيف والاسترجاع. ويُسجّل نماذج SILC سجلًا قياسيًا جديدًا في المهام ذات الصفر-النسخة (zero-shot) مثل التصنيف، والتصنيف القليل النسخ (few-shot)، والاسترجاع الصوري والنصي، والتقسيم الصوري ذي المفردات المفتوحة، والتقسيم المفتوح المفردات. كما نُظهر أن ميزات SILC تُفيد بشكل كبير في المهام ذات المفردات المفتوحة مثل الكشف، والوصف، والإجابة على الأسئلة البصرية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp