Chinese CLIP: التدريب المسبق المتمحور حول الرؤية واللغة بالتناقض بالصينية

لقد دفع النجاح الكبير لنموذج CLIP (Radford et al., 2021) إلى تطوير الأبحاث والتطبيقات المتعلقة بالتعلم التبايني في مجال التدريب المسبق للرؤية واللغة. في هذه الدراسة، نُنشئ مجموعة بيانات كبيرة من أزواج الصور والنصوص باللغة الصينية، حيث تم استرجاع معظم البيانات من مجموعات بيانات متاحة علنًا، ونُدرّب نماذج CLIP الصينية على هذه المجموعة الجديدة. ونُطوّر خمسة نماذج CLIP صينية بمقاييس مختلفة، تتراوح من 77 مليونًا إلى 958 مليونًا من المعاملات. علاوةً على ذلك، نقترح طريقة تدريب مزدوجة المرحلة، حيث يتم أولاً تدريب النموذج مع تثبيت مشفر الصور، ثم تدريبه مع تحسين جميع المعاملات، بهدف تحقيق أداء مُحسَّن للنموذج. تُظهر تجاربنا الشاملة أن نموذج CLIP الصيني يمكنه تحقيق أفضل أداء ممكن (state-of-the-art) على مجموعات البيانات MUGE وFlickr30K-CN وCOCO-CN في سياقات التعلم الصفرية (zero-shot learning) والتعديل الدقيق (fine-tuning)، كما يتمكن من تحقيق أداء تنافسي في تصنيف الصور بدون تدريب مسبق (zero-shot image classification) وفقًا لتقييمه على معيار ELEVATER (Li et al., 2022). وقد أُطلق كودنا والنماذج والتطبيقات التوضيحية على الرابط التالي: https://github.com/OFA-Sys/Chinese-CLIP