منذ 8 أشهر

الملخص

توسيع تدريب النماذج المتباينة للغة والصورة (CLIP) أمر حاسم لتعزيز قدرات نماذج الرؤية والنماذج متعددة الوسائط. نقدم EVA-CLIP-18B، وهو أكبر وأقوى نموذج CLIP مفتوح المصدر حتى الآن، بحجم 18 مليار معلمة. بعد رؤية فقط 6 مليارات عينة تدريبية، حقق EVA-CLIP-18B دقة استدلال صفرية (zero-shot) استثنائية بلغت 80.7% متوسطاً على 27 مقاييس تصنيف الصور المعترف بها على نطاق واسع، مما يتفوق بشكل كبير على سلفه EVA-CLIP (5 مليارات معلمة) وعلى باقي النماذج المفتوحة المصدر من CLIP. وبشكل ملفت، لوحظ تحسن أداء ثابت مع زيادة حجم نموذج EVA-CLIP، رغم الحفاظ على مجموعة بيانات ثابتة تتكون من 2 مليار زوج صورة-نص من LAION-2B وCOYO-700M. هذه المجموعة البيانات متاحة بشكل مفتوح وهي أصغر بكثير من مجموعات البيانات الداخلية المستخدمة في باقي النماذج الرائدة من CLIP (مثل DFN-5B وWebLI-10B). يظهر EVA-CLIP-18B إمكانات توسيع النماذج البصرية بنمط EVA من الضعف إلى القوة. ومع جعل أوزان نموذجنا متاحة للجمهور، نأمل في تسهيل البحث المستقبلي في مجال نماذج الرؤية والأساس متعدد الوسائط.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار