HyperAIHyperAI
منذ 19 أيام

CCMB: معيار صغير متعدد الوسائط صيني على نطاق واسع

Chunyu Xie, Heng Cai, Jincheng Li, Fanjing Kong, Xiaoyu Wu, Jianfei Song, Henrique Morimitsu, Lin Yao, Dexin Wang, Xiangzheng Zhang, Dawei Leng, Baochang Zhang, Xiangyang Ji, Yafeng Deng
CCMB: معيار صغير متعدد الوسائط صيني على نطاق واسع
الملخص

أظهر التدريب المسبق متعدد الوسائط (VLP) على مجموعات بيانات ضخمة الأداء المتميز في مهام متعددة في المرحلة اللاحقة. وعلى عكس عدد كبير من المعايير المتاحة التي تعتمد على نصوص إنجليزية، تظل مجموعات البيانات الضخمة للتدريب المسبق والبيانات اللاحقة التي تعتمد على النصوص الصينية غير مُستكشفة بشكل واسع. في هذه الدراسة، نُنشئ معيارًا متعدد الوسائط عالي الجودة وضخم الحجم باللغة الصينية يُسمى CCMB للمجتمع البحثي، والذي يحتوي على أكبر مجموعة بيانات تدريب مسبق عامة متاحة حاليًا باسم Zero، بالإضافة إلى خمس مجموعات بيانات تدريب دقيقة تم ترميزها يدويًا لمهام المرحلة اللاحقة. تضم مجموعة Zero 250 مليون صورة مزروعة مع 750 مليون وصف نصي، كما أن اثنتين من خمس مجموعات التدريب الدقيق تُعدان حاليًا أكبر مجموعات بيانات متاحة لمهام متعددة الوسائط باللغة الصينية. وبالإضافة إلى CCMB، نطوّر إطارًا لـ VLP يُسمى R2D2، والذي يطبّق استراتيجية ما قبل التصنيف + التصنيف لتعلم تمثيلات قوية متعددة الوسائط، وطريقة تبادلية ثنائية الاتجاه (أي تبادل موجه بالهدف وتبادل موجه بالسمات) لتعزيز قدرة التعلم بشكل إضافي. وباستخدام مجموعة Zero وإطار VLP R2D2، نحقق أداءً متميزًا على مستوى الحد الأقصى في اثنتي عشرة مجموعة بيانات لمهام المرحلة اللاحقة من خمس فئات واسعة من المهام، بما في ذلك استرجاع الصور والنصوص، والتوافق بين الصور والنصوص، وتوليد وصف الصورة، وإنشاء الصور من النصوص، والتصنيف الصوتي الصفر. تتوفر المجموعات البيانات، النماذج، والكود على الرابط: https://github.com/yuxie11/R2D2