Command Palette
Search for a command to run...
EVA-CLIP: تقنيات تدريب محسنة لـ CLIP على نطاق واسع
EVA-CLIP: تقنيات تدريب محسنة لـ CLIP على نطاق واسع
Quan Sun¹ Yuxin Fang¹,² Ledell Wu¹ Xinlong Wang¹ Yue Cao¹
الملخص
التدريب المقارن للصورة واللغة، المعروف اختصارًا بـ CLIP، حظي باهتمام متزايد بسبب إمكاناته في العديد من السيناريوهات. في هذا البحث، نقترح EVA-CLIP، وهي سلسلة من النماذج التي تحسن بشكل كبير كفاءة وفعالية التدريب على CLIP. يدمج نهجنا تقنيات جديدة لتعلم التمثيل، والتحسين، والتضخيم، مما يتيح لـ EVA-CLIP تحقيق أداء متفوق مقارنة بنماذج CLIP السابقة ذات نفس عدد المعلمات ولكن مع تكاليف تدريب أقل بكثير. ومن الجدير بالذكر أن أكبر نموذج لدينا EVA-02-CLIP-E/14+ بحجم 5.0 مليار معلمة وباستخدام 9 مليارات عينة فقط حقق دقة صفرية (zero-shot) بنسبة 82.0% في المركز الأول على مجموعة اختبار ImageNet-1K val. كما حقق نموذج EVA-02-CLIP-L/14+ الأصغر بحجم 430 مليون معلمة وباستخدام 6 مليارات عينة فقط دقة صفرية بنسبة 80.4% في المركز الأول على مجموعة اختبار ImageNet-1K val. لتسهيل الوصول المفتوح والبحث المفتوح، نقوم بإطلاق مجموعة كاملة من EVA-CLIP للمجتمع في الرابط https://github.com/baaivision/EVA/tree/master/EVA-CLIP.