HyperAIHyperAI

Command Palette

Search for a command to run...

ووكونغ: معيار تدريب مسبق متعدد الوسائط صيني بحجم 100 مليون من الكبار

الملخص

أظهرت نماذج التدريب المسبق متعدد الوسائط (VLP) أداءً متميزًا في مهام متعددة مُستَخدَمة بعد التدريب. ويعتمد نجاحها بشكل كبير على حجم مجموعة البيانات المُدرَّبة مسبقًا متعددة الوسائط. ومع ذلك، فإن نقص قواعد البيانات الكبيرة والمعاير المعيارية باللغة الصينية يُعيق تطوير نماذج VLP الصينية والتطبيقات متعددة اللغات على نطاق أوسع. في هذه الدراسة، نُطلق مجموعة بيانات صينية متعددة الوسائط كبيرة الحجم تُسمى "ووكونغ" (Wukong)، والتي تحتوي على 100 مليون زوج من الصور والنصوص باللغة الصينية تم جمعها من الويب. تهدف ووكونغ إلى تقييم مختلف الأساليب المُدرَّبة مسبقًا متعددة الوسائط، وتسهيل تطور أبحاث VLP ونمو المجتمع العلمي. علاوةً على ذلك، نُطلق مجموعة من النماذج المُدرَّبة مسبقًا باستخدام مُشفرات صور مختلفة (ViT-B / ViT-L / SwinT)، ونُطبّق تقنيات متقدمة في التدريب المسبق مثل التحسين المُغلَّق للصورة والنص، والتشابه على مستوى الرموز في التعلم التمييزي، وتقليل التفاعل بين الرموز. كما نقدم تجارب واسعة النطاق ومقارنة بين نماذج مختلفة في مهام متعددة مُستَخدَمة بعد التدريب، بما في ذلك مجموعة اختبار جديدة للصور والنصوص تم التحقق منها يدويًا وتعتبر الأكبر في حجمها. تُظهر التجارب أن ووكونغ يمكن أن تُستخدم كمجموعة بيانات مُدرَّبة مسبقًا ومعيارًا واعدًا للغة الصينية لأساليب التعلم متعدد الوسائط المختلفة. بالنسبة لمهام التصنيف الصوتي الصفر (zero-shot) على 10 مجموعات بيانات، حقق نموذج WukongViTLWukong_{ViT-L}WukongViTL متوسط دقة بلغ 73.03%. أما في مهام استرجاع الصور والنصوص، فقد بلغ متوسط الاسترجاع 71.6% على مجموعة AIC-ICC، أي بزيادة قدرها 12.9% مقارنةً بنموذج WenLan 2.0. كما تم اختبار نماذج ووكونغ في مهام مُستَخدَمة بعد التدريب باستخدام نماذج أخرى على عدة مجموعات بيانات، مثل Flickr8K-CN، Flickr-30K-CN، COCO-CN، إلخ. لمزيد من المعلومات، يُرجى زيارة: https://wukong-dataset.github.io/wukong-dataset/.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp