HyperAIHyperAI

Command Palette

Search for a command to run...

ما مدى فائدة CLIP للمهام البصرية واللغوية؟

Sheng Shen Liunian Harold Li Hao Tan Mohit Bansal Anna Rohrbach Kai-Wei Chang Zhewei Yao Kurt Keutzer

الملخص

تعتمد معظم النماذج الحالية التي تجمع بين الرؤية واللغة (V&L) على مشغلات بصرية مُدرَّبة مسبقًا، وتستعين بمجموعة نسبية صغيرة من البيانات المُعلَّمة يدويًا (مقارنةً بالبيانات المستخرجة من الإنترنت) لفهم العالم البصري. ومع ذلك، لوحظ أن التدريب على نطاق واسع غالبًا ما يؤدي إلى أداء عام أفضل، مثل نموذج CLIP (التدريب التبايني للغة والصورة)، الذي تم تدريبه على كمّ هائل من أزواج الصور والنصوص، وقد أظهر قدرة قوية على العمل بدون تدريب مسبق (zero-shot) في مهام بصرية متنوعة. ولدراسة مزايا CLIP بشكل أعمق، نقترح استخدام CLIP كمشغل بصري في مختلف نماذج V&L في سيناريوهين نموذجيين: 1) دمج CLIP في عملية التدريب الدقيق المخصص للمهام؛ و2) دمج CLIP مع التدريب المسبق لنموذج V&L، ثم نقله إلى المهام التطبيقية. ونُظهر أن CLIP يتفوّق بشكل كبير على المشغلات البصرية الشائعة التي تم تدريبها باستخدام بيانات مُعلَّمة داخل المجال، مثل نموذج BottomUp-TopDown. ونحقق نتائج تنافسية أو أفضل في مهام V&L المتنوعة، مع تحقيق نتائج جديدة على مستوى الحد الأقصى (state-of-the-art) في مهام الإجابة على الأسئلة البصرية (Visual Question Answering)، والانسجام البصري (Visual Entailment)، والتنقل المُرتبط بالرؤية واللغة (V&L Navigation). ونُطلق كودنا على الرابط التالي: https://github.com/clip-vil/CLIP-ViL.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp