HyperAIHyperAI
منذ 11 أيام

ما مدى فائدة CLIP للمهام البصرية واللغوية؟

Sheng Shen, Liunian Harold Li, Hao Tan, Mohit Bansal, Anna Rohrbach, Kai-Wei Chang, Zhewei Yao, Kurt Keutzer
ما مدى فائدة CLIP للمهام البصرية واللغوية؟
الملخص

تعتمد معظم النماذج الحالية التي تجمع بين الرؤية واللغة (V&L) على مشغلات بصرية مُدرَّبة مسبقًا، وتستعين بمجموعة نسبية صغيرة من البيانات المُعلَّمة يدويًا (مقارنةً بالبيانات المستخرجة من الإنترنت) لفهم العالم البصري. ومع ذلك، لوحظ أن التدريب على نطاق واسع غالبًا ما يؤدي إلى أداء عام أفضل، مثل نموذج CLIP (التدريب التبايني للغة والصورة)، الذي تم تدريبه على كمّ هائل من أزواج الصور والنصوص، وقد أظهر قدرة قوية على العمل بدون تدريب مسبق (zero-shot) في مهام بصرية متنوعة. ولدراسة مزايا CLIP بشكل أعمق، نقترح استخدام CLIP كمشغل بصري في مختلف نماذج V&L في سيناريوهين نموذجيين: 1) دمج CLIP في عملية التدريب الدقيق المخصص للمهام؛ و2) دمج CLIP مع التدريب المسبق لنموذج V&L، ثم نقله إلى المهام التطبيقية. ونُظهر أن CLIP يتفوّق بشكل كبير على المشغلات البصرية الشائعة التي تم تدريبها باستخدام بيانات مُعلَّمة داخل المجال، مثل نموذج BottomUp-TopDown. ونحقق نتائج تنافسية أو أفضل في مهام V&L المتنوعة، مع تحقيق نتائج جديدة على مستوى الحد الأقصى (state-of-the-art) في مهام الإجابة على الأسئلة البصرية (Visual Question Answering)، والانسجام البصري (Visual Entailment)، والتنقل المُرتبط بالرؤية واللغة (V&L Navigation). ونُطلق كودنا على الرابط التالي: https://github.com/clip-vil/CLIP-ViL.

ما مدى فائدة CLIP للمهام البصرية واللغوية؟ | أحدث الأوراق البحثية | HyperAI