HyperAIHyperAI

Command Palette

Search for a command to run...

CCMB: معيار صغير متعدد الوسائط صيني على نطاق واسع

الملخص

أظهر التدريب المسبق متعدد الوسائط (VLP) على مجموعات بيانات ضخمة الأداء المتميز في مهام متعددة في المرحلة اللاحقة. وعلى عكس عدد كبير من المعايير المتاحة التي تعتمد على نصوص إنجليزية، تظل مجموعات البيانات الضخمة للتدريب المسبق والبيانات اللاحقة التي تعتمد على النصوص الصينية غير مُستكشفة بشكل واسع. في هذه الدراسة، نُنشئ معيارًا متعدد الوسائط عالي الجودة وضخم الحجم باللغة الصينية يُسمى CCMB للمجتمع البحثي، والذي يحتوي على أكبر مجموعة بيانات تدريب مسبق عامة متاحة حاليًا باسم Zero، بالإضافة إلى خمس مجموعات بيانات تدريب دقيقة تم ترميزها يدويًا لمهام المرحلة اللاحقة. تضم مجموعة Zero 250 مليون صورة مزروعة مع 750 مليون وصف نصي، كما أن اثنتين من خمس مجموعات التدريب الدقيق تُعدان حاليًا أكبر مجموعات بيانات متاحة لمهام متعددة الوسائط باللغة الصينية. وبالإضافة إلى CCMB، نطوّر إطارًا لـ VLP يُسمى R2D2، والذي يطبّق استراتيجية ما قبل التصنيف + التصنيف لتعلم تمثيلات قوية متعددة الوسائط، وطريقة تبادلية ثنائية الاتجاه (أي تبادل موجه بالهدف وتبادل موجه بالسمات) لتعزيز قدرة التعلم بشكل إضافي. وباستخدام مجموعة Zero وإطار VLP R2D2، نحقق أداءً متميزًا على مستوى الحد الأقصى في اثنتي عشرة مجموعة بيانات لمهام المرحلة اللاحقة من خمس فئات واسعة من المهام، بما في ذلك استرجاع الصور والنصوص، والتوافق بين الصور والنصوص، وتوليد وصف الصورة، وإنشاء الصور من النصوص، والتصنيف الصوتي الصفر. تتوفر المجموعات البيانات، النماذج، والكود على الرابط: https://github.com/yuxie11/R2D2


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp