HyperAIHyperAI
منذ 16 أيام

SILC: تحسين التدريب المسبق للغة والرؤية من خلال التباعد الذاتي

Muhammad Ferjad Naeem, Yongqin Xian, Xiaohua Zhai, Lukas Hoyer, Luc Van Gool, Federico Tombari
SILC: تحسين التدريب المسبق للغة والرؤية من خلال التباعد الذاتي
الملخص

أصبح التدريب المسبق للصورة والنص على مجموعات بيانات وسائط صور ونصوص واسعة النطاق هو المعيار الافتراضي لنموذج التصنيف والاسترجاع ذي المفردات المفتوحة بفضل نجاح نموذج CLIP ومتغيراته. كما استخدمت عدة أعمال ميزات CLIP في المهام التنبؤية الكثيفة، وأظهرت ظهور قدرات مفتوحة المجموعة (open-set). ومع ذلك، فإن الهدف التبايني المستخدم في هذه النماذج يركز فقط على التوافق بين الصورة والنص، ولا يشجع تعلم ميزات الصورة لمهام التنبؤ الكثيف. في هذه الدراسة، نقدم إطارًا جديدًا يُدعى SILC، لتدريب الرؤية واللغة. يُحسّن SILC التدريب التبايني بين الصورة والنص من خلال إضافة بسيطة تتمثل في تعلم التقابل المحلي-الكلي عبر التعلم الذاتي (self-distillation). ونُظهر أن استخلاص ميزات الصورة المحلية من نموذج معلم متوسط متحرك أساسي (EMA) يُحسّن بشكل كبير أداء النموذج في مهام التنبؤ الكثيف مثل الكشف والتقسيم، في الوقت الذي يُحسّن فيه أيضًا الأداء في المهام على مستوى الصورة مثل التصنيف والاسترجاع. ويُسجّل نماذج SILC سجلًا قياسيًا جديدًا في المهام ذات الصفر-النسخة (zero-shot) مثل التصنيف، والتصنيف القليل النسخ (few-shot)، والاسترجاع الصوري والنصي، والتقسيم الصوري ذي المفردات المفتوحة، والتقسيم المفتوح المفردات. كما نُظهر أن ميزات SILC تُفيد بشكل كبير في المهام ذات المفردات المفتوحة مثل الكشف، والوصف، والإجابة على الأسئلة البصرية.

SILC: تحسين التدريب المسبق للغة والرؤية من خلال التباعد الذاتي | أحدث الأوراق البحثية | HyperAI