HyperAIHyperAI
منذ 17 أيام

ووكونغ: معيار تدريب مسبق متعدد الوسائط صيني بحجم 100 مليون من الكبار

Jiaxi Gu, Xiaojun Meng, Guansong Lu, Lu Hou, Minzhe Niu, Xiaodan Liang, Lewei Yao, Runhui Huang, Wei Zhang, Xin Jiang, Chunjing Xu, Hang Xu
ووكونغ: معيار تدريب مسبق متعدد الوسائط صيني بحجم 100 مليون من الكبار
الملخص

أظهرت نماذج التدريب المسبق متعدد الوسائط (VLP) أداءً متميزًا في مهام متعددة مُستَخدَمة بعد التدريب. ويعتمد نجاحها بشكل كبير على حجم مجموعة البيانات المُدرَّبة مسبقًا متعددة الوسائط. ومع ذلك، فإن نقص قواعد البيانات الكبيرة والمعاير المعيارية باللغة الصينية يُعيق تطوير نماذج VLP الصينية والتطبيقات متعددة اللغات على نطاق أوسع. في هذه الدراسة، نُطلق مجموعة بيانات صينية متعددة الوسائط كبيرة الحجم تُسمى "ووكونغ" (Wukong)، والتي تحتوي على 100 مليون زوج من الصور والنصوص باللغة الصينية تم جمعها من الويب. تهدف ووكونغ إلى تقييم مختلف الأساليب المُدرَّبة مسبقًا متعددة الوسائط، وتسهيل تطور أبحاث VLP ونمو المجتمع العلمي. علاوةً على ذلك، نُطلق مجموعة من النماذج المُدرَّبة مسبقًا باستخدام مُشفرات صور مختلفة (ViT-B / ViT-L / SwinT)، ونُطبّق تقنيات متقدمة في التدريب المسبق مثل التحسين المُغلَّق للصورة والنص، والتشابه على مستوى الرموز في التعلم التمييزي، وتقليل التفاعل بين الرموز. كما نقدم تجارب واسعة النطاق ومقارنة بين نماذج مختلفة في مهام متعددة مُستَخدَمة بعد التدريب، بما في ذلك مجموعة اختبار جديدة للصور والنصوص تم التحقق منها يدويًا وتعتبر الأكبر في حجمها. تُظهر التجارب أن ووكونغ يمكن أن تُستخدم كمجموعة بيانات مُدرَّبة مسبقًا ومعيارًا واعدًا للغة الصينية لأساليب التعلم متعدد الوسائط المختلفة. بالنسبة لمهام التصنيف الصوتي الصفر (zero-shot) على 10 مجموعات بيانات، حقق نموذج $Wukong_{ViT-L}$ متوسط دقة بلغ 73.03%. أما في مهام استرجاع الصور والنصوص، فقد بلغ متوسط الاسترجاع 71.6% على مجموعة AIC-ICC، أي بزيادة قدرها 12.9% مقارنةً بنموذج WenLan 2.0. كما تم اختبار نماذج ووكونغ في مهام مُستَخدَمة بعد التدريب باستخدام نماذج أخرى على عدة مجموعات بيانات، مثل Flickr8K-CN، Flickr-30K-CN، COCO-CN، إلخ. لمزيد من المعلومات، يُرجى زيارة: https://wukong-dataset.github.io/wukong-dataset/.