HyperAIHyperAI

Command Palette

Search for a command to run...

LiT: النقل الصفر مع ضبط النصوص المرتبطة بالصور

Xiaohua Zhai*† Xiao Wang* Basil Mustafa* Andreas Steiner* Daniel Keysers Alexander Kolesnikov Lucas Beyer*†

الملخص

يقدم هذا البحث طريقة بسيطة تُعرف بـ "الضبط المقارن" (contrastive-tuning)، وهي تعتمد على التدريب المقارن لتوحيد نماذج الصور والنصوص مع الاستمرار في الاستفادة من التدريب الأولي لهذه النماذج. وفي دراستنا التجريبية، وجدنا أن أفضل النتائج تتحقق عند استخدام نماذج صور مُقفلة ومُدربة مسبقًا مع نماذج نصوص غير مقفلة. نطلق على هذه الحالة من الضبط المقارن اسم "الضبط المقارن للصور المقفلة" (Locked-image Tuning) (LiT)، حيث يتم تعليم نموذج النصوص كيفية استخراج تمثيلات جيدة من نموذج الصور المُدرب مسبقًا لأداء مهام جديدة. يكتسب نموذج LiT القدرة على النقل الفوري إلى مهام رؤية جديدة، مثل تصنيف الصور واسترجاعها. يمكن تطبيق LiT المقترح بشكل واسع؛ فهو يعمل بشكل ثابت مع عدة طرق للتدريب الأولي (مشرف عليها وغير مشرف عليها) وعبر هياكل مختلفة (ResNet، Transformers البصرية، و MLP-Mixer) باستخدام ثلاثة مجموعات بيانات مختلفة للصور والنصوص. ومع استخدام نموذج ViT-g/14 المُدرب مسبقًا المستند إلى الشبكات العصبية التحويلية، يصل نموذج LiT إلى دقة نقل فوري تبلغ 85.2% في مجموعة اختبار ImageNet، و 82.5% في مجموعة اختبار ObjectNet الأكثر تحديًا خارج نطاق التوزيع.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp