Command Palette
Search for a command to run...
EVA-CLIP-18B: توسيع CLIP إلى 18 مليار معلمة
EVA-CLIP-18B: توسيع CLIP إلى 18 مليار معلمة
Quan Sun Jinsheng Wang Qiying Yu Yufeng Cui Fan Zhang Xiaosong Zhang Xinlong Wang
الملخص
توسيع تدريب النماذج المتباينة للغة والصورة (CLIP) أمر حاسم لتعزيز قدرات نماذج الرؤية والنماذج متعددة الوسائط. نقدم EVA-CLIP-18B، وهو أكبر وأقوى نموذج CLIP مفتوح المصدر حتى الآن، بحجم 18 مليار معلمة. بعد رؤية فقط 6 مليارات عينة تدريبية، حقق EVA-CLIP-18B دقة استدلال صفرية (zero-shot) استثنائية بلغت 80.7% متوسطاً على 27 مقاييس تصنيف الصور المعترف بها على نطاق واسع، مما يتفوق بشكل كبير على سلفه EVA-CLIP (5 مليارات معلمة) وعلى باقي النماذج المفتوحة المصدر من CLIP. وبشكل ملفت، لوحظ تحسن أداء ثابت مع زيادة حجم نموذج EVA-CLIP، رغم الحفاظ على مجموعة بيانات ثابتة تتكون من 2 مليار زوج صورة-نص من LAION-2B وCOYO-700M. هذه المجموعة البيانات متاحة بشكل مفتوح وهي أصغر بكثير من مجموعات البيانات الداخلية المستخدمة في باقي النماذج الرائدة من CLIP (مثل DFN-5B وWebLI-10B). يظهر EVA-CLIP-18B إمكانات توسيع النماذج البصرية بنمط EVA من الضعف إلى القوة. ومع جعل أوزان نموذجنا متاحة للجمهور، نأمل في تسهيل البحث المستقبلي في مجال نماذج الرؤية والأساس متعدد الوسائط.