HyperAIHyperAI

Command Palette

Search for a command to run...

Chinese CLIP: التدريب المسبق المتمحور حول الرؤية واللغة بالتناقض بالصينية

An Yang Junshu Pan Junyang Lin Rui Men Yichang Zhang Jingren Zhou Chang Zhou

الملخص

لقد دفع النجاح الكبير لنموذج CLIP (Radford et al., 2021) إلى تطوير الأبحاث والتطبيقات المتعلقة بالتعلم التبايني في مجال التدريب المسبق للرؤية واللغة. في هذه الدراسة، نُنشئ مجموعة بيانات كبيرة من أزواج الصور والنصوص باللغة الصينية، حيث تم استرجاع معظم البيانات من مجموعات بيانات متاحة علنًا، ونُدرّب نماذج CLIP الصينية على هذه المجموعة الجديدة. ونُطوّر خمسة نماذج CLIP صينية بمقاييس مختلفة، تتراوح من 77 مليونًا إلى 958 مليونًا من المعاملات. علاوةً على ذلك، نقترح طريقة تدريب مزدوجة المرحلة، حيث يتم أولاً تدريب النموذج مع تثبيت مشفر الصور، ثم تدريبه مع تحسين جميع المعاملات، بهدف تحقيق أداء مُحسَّن للنموذج. تُظهر تجاربنا الشاملة أن نموذج CLIP الصيني يمكنه تحقيق أفضل أداء ممكن (state-of-the-art) على مجموعات البيانات MUGE وFlickr30K-CN وCOCO-CN في سياقات التعلم الصفرية (zero-shot learning) والتعديل الدقيق (fine-tuning)، كما يتمكن من تحقيق أداء تنافسي في تصنيف الصور بدون تدريب مسبق (zero-shot image classification) وفقًا لتقييمه على معيار ELEVATER (Li et al., 2022). وقد أُطلق كودنا والنماذج والتطبيقات التوضيحية على الرابط التالي: https://github.com/OFA-Sys/Chinese-CLIP


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp