EVA-CLIP-18B: توسيع CLIP إلى 18 مليار معلمة

توسيع تدريب النماذج المتباينة للغة والصورة (CLIP) أمر حاسم لتعزيز قدرات نماذج الرؤية والنماذج متعددة الوسائط. نقدم EVA-CLIP-18B، وهو أكبر وأقوى نموذج CLIP مفتوح المصدر حتى الآن، بحجم 18 مليار معلمة. بعد رؤية فقط 6 مليارات عينة تدريبية، حقق EVA-CLIP-18B دقة استدلال صفرية (zero-shot) استثنائية بلغت 80.7% متوسطاً على 27 مقاييس تصنيف الصور المعترف بها على نطاق واسع، مما يتفوق بشكل كبير على سلفه EVA-CLIP (5 مليارات معلمة) وعلى باقي النماذج المفتوحة المصدر من CLIP. وبشكل ملفت، لوحظ تحسن أداء ثابت مع زيادة حجم نموذج EVA-CLIP، رغم الحفاظ على مجموعة بيانات ثابتة تتكون من 2 مليار زوج صورة-نص من LAION-2B وCOYO-700M. هذه المجموعة البيانات متاحة بشكل مفتوح وهي أصغر بكثير من مجموعات البيانات الداخلية المستخدمة في باقي النماذج الرائدة من CLIP (مثل DFN-5B وWebLI-10B). يظهر EVA-CLIP-18B إمكانات توسيع النماذج البصرية بنمط EVA من الضعف إلى القوة. ومع جعل أوزان نموذجنا متاحة للجمهور، نأمل في تسهيل البحث المستقبلي في مجال نماذج الرؤية والأساس متعدد الوسائط.