LiT: النقل الصفر مع ضبط النصوص المرتبطة بالصور

يقدم هذا البحث طريقة بسيطة تُعرف بـ "الضبط المقارن" (contrastive-tuning)، وهي تعتمد على التدريب المقارن لتوحيد نماذج الصور والنصوص مع الاستمرار في الاستفادة من التدريب الأولي لهذه النماذج. وفي دراستنا التجريبية، وجدنا أن أفضل النتائج تتحقق عند استخدام نماذج صور مُقفلة ومُدربة مسبقًا مع نماذج نصوص غير مقفلة. نطلق على هذه الحالة من الضبط المقارن اسم "الضبط المقارن للصور المقفلة" (Locked-image Tuning) (LiT)، حيث يتم تعليم نموذج النصوص كيفية استخراج تمثيلات جيدة من نموذج الصور المُدرب مسبقًا لأداء مهام جديدة. يكتسب نموذج LiT القدرة على النقل الفوري إلى مهام رؤية جديدة، مثل تصنيف الصور واسترجاعها. يمكن تطبيق LiT المقترح بشكل واسع؛ فهو يعمل بشكل ثابت مع عدة طرق للتدريب الأولي (مشرف عليها وغير مشرف عليها) وعبر هياكل مختلفة (ResNet، Transformers البصرية، و MLP-Mixer) باستخدام ثلاثة مجموعات بيانات مختلفة للصور والنصوص. ومع استخدام نموذج ViT-g/14 المُدرب مسبقًا المستند إلى الشبكات العصبية التحويلية، يصل نموذج LiT إلى دقة نقل فوري تبلغ 85.2% في مجموعة اختبار ImageNet، و 82.5% في مجموعة اختبار ObjectNet الأكثر تحديًا خارج نطاق التوزيع.