HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

MobileCLIP2: تحسين التدريب المتعدد الوسائط المعزز

Fartash Faghri Pavan Kumar Anasosalu Vasu Cem Koc Vaishaal Shankar Alexander Toshev Oncel Tuzel Hadi Pouransari

MobileCLIP2: تحسين التدريب المتعدد الوسائط المعزز

الملخص

تمكّن نماذج الصور والنصوص الأساسية مثل CLIP، التي تمتلك قدرات بدون عينات (zero-shot)، من تطبيق مجموعة واسعة من التطبيقات. ويُعدّ MobileCLIP عائلةً حديثةً من نماذج الصور والنصوص، تعمل بتأخير يتراوح بين 3 إلى 15 مللي ثانية، وعدد معاملات يتراوح بين 50 إلى 150 مليون مع تحقيق دقة صفرية (zero-shot) متقدمة على مستوى الصناعة. وتمثل العناصر الأساسية في MobileCLIP هي البنية المنخفضة التأخير والخفيفة، بالإضافة إلى تدريب مُعزّز متعدد الوسائط (multi-modal reinforced training) الجديد، الذي جعل عملية نقل المعرفة (knowledge distillation) من مُدرّسين متعددين (من بينها مُولّدات وصف صور متعددة ومُدرّس CLIP) أكثر كفاءة وقابلية للتوسع وقابلية لإعادة الإنتاج. في هذا البحث، نُحسّن عملية التدريب المُعزّز متعدد الوسائط في MobileCLIP من خلال: (1) تحسين مجموعات مُدرّسي CLIP المدربة على مجموعة بيانات DFN، و(2) تحسين مُدرّسي مُولّدات الوصف (captioner teachers) المدربة على مجموعة DFN، ثم تدريبها بدقة على مجموعة متنوعة من مجموعات بيانات الصور والنصوص عالية الجودة. وخلال التحليلات التجريبيّة (ablations)، اكتشفنا رؤى جديدة، منها أهمية ضبط درجة الحرارة في عملية نقل المعرفة التباينية (contrastive knowledge distillation)، وفعالية تدريب التحسين (fine-tuning) لمُولّدات الوصف لتعزيز تنوع النصوص، بالإضافة إلى الفائدة المضافة الناتجة عن دمج النصوص الاصطناعية التي تولّدها نماذج متعددة. وقد قمنا بتدريب عائلة جديدة من النماذج تُسمّى MobileCLIP2، وحققنا دقة صفرية متفوّقة على ImageNet-1k عند تأخير منخفض. وتحديدًا، لاحظنا تحسنًا بنسبة 2.2% في دقة ImageNet-1k لنموذج MobileCLIP2-B مقارنةً ببنية MobileCLIP-B. وبشكل لافت، فإن MobileCLIP2-S4 يُساوي دقة التعرف بدون عينات لنموذج SigLIP-SO400M/14 على ImageNet-1k، مع أن حجمه ضعف أصغر، كما يتفوّق على نموذج DFN ViT-L/14 من حيث الأداء بتأخير أقل بنسبة 2.5 مرة. وقد أطلقنا نماذجنا المُدرّبة مسبقًا (عبر هذا الرابط: https URL) وشفرة إنشاء البيانات (عبر هذا الرابط: https URL). وتُسهّل شفرة إنشاء البيانات إمكانية إنشاء مجموعات بيانات مُعزّزة جديدة باستخدام أي مدرّس، وذلك باستخدام معالجة موزعة قابلة للتوسع.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
MobileCLIP2: تحسين التدريب المتعدد الوسائط المعزز | الأوراق البحثية | HyperAI