HyperAIHyperAI

Command Palette

Search for a command to run...

EVA-CLIP-18B: توسيع CLIP إلى 18 مليار معلمة

Quan Sun Jinsheng Wang Qiying Yu Yufeng Cui Fan Zhang Xiaosong Zhang Xinlong Wang

الملخص

توسيع تدريب النماذج المتباينة للغة والصورة (CLIP) أمر حاسم لتعزيز قدرات نماذج الرؤية والنماذج متعددة الوسائط. نقدم EVA-CLIP-18B، وهو أكبر وأقوى نموذج CLIP مفتوح المصدر حتى الآن، بحجم 18 مليار معلمة. بعد رؤية فقط 6 مليارات عينة تدريبية، حقق EVA-CLIP-18B دقة استدلال صفرية (zero-shot) استثنائية بلغت 80.7% متوسطاً على 27 مقاييس تصنيف الصور المعترف بها على نطاق واسع، مما يتفوق بشكل كبير على سلفه EVA-CLIP (5 مليارات معلمة) وعلى باقي النماذج المفتوحة المصدر من CLIP. وبشكل ملفت، لوحظ تحسن أداء ثابت مع زيادة حجم نموذج EVA-CLIP، رغم الحفاظ على مجموعة بيانات ثابتة تتكون من 2 مليار زوج صورة-نص من LAION-2B وCOYO-700M. هذه المجموعة البيانات متاحة بشكل مفتوح وهي أصغر بكثير من مجموعات البيانات الداخلية المستخدمة في باقي النماذج الرائدة من CLIP (مثل DFN-5B وWebLI-10B). يظهر EVA-CLIP-18B إمكانات توسيع النماذج البصرية بنمط EVA من الضعف إلى القوة. ومع جعل أوزان نموذجنا متاحة للجمهور، نأمل في تسهيل البحث المستقبلي في مجال نماذج الرؤية والأساس متعدد الوسائط.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp