تشينا أوبن: مجموعة بيانات للتعلم متعدد الوسائط في عالم مفتوح

يقدم هذا البحث مجموعة بيانات تُسمى ChinaOpen، المستمدة من منصة Bilibili، وهي موقع شهير لمشاركة الفيديوهات في الصين، بهدف دعم التعلم متعدد الوسائط في بيئة مفتوحة. وعلى الرغم من الأداء المبهر الذي أظهرته الشبكات الحديثة في التعلم متعدد الوسائط في مجالات مثل التسمية التلقائية للفيديوهات والاسترجاع عبر الوسائط المختلفة، فإن تدريبها وتقييمها يُجرى بشكل رئيسي على مقاطع فيديو من يوتيوب تشمل نصوصًا إنجليزية. ويبقى مُدى فعاليتها على البيانات الصينية غير مُثبت بعد. ولدعم التعلم متعدد الوسائط في السياق الجديد، قمنا ببناء مجموعة التدريب ChinaOpen-50k، التي تضم 50 ألف فيديو من Bilibili، مصحوبة بعناوين ووسوم مُنشأة من قبل المستخدمين. وقد تم إجراء تنظيف للبيانات على أساس النصوص والمضمون مسبقًا لاستبعاد الفيديوهات منخفضة الجودة. ولضمان تقييم شامل، أنشأنا مجموعة الاختبار ChinaOpen-1k، المكونة من 1000 فيديو مُسمّاة يدويًا. حيث يرافق كل فيديو من هذه المجموعة عنوان مُدقق من قبل مستخدم، ووصف مكتوب يدويًا، بالإضافة إلى وسوم يدوية تصف الكائنات أو الحركات أو المشاهد المُظهرة في المحتوى البصري. كما تم مراجعة وسوم المستخدمين الأصلية يدويًا. علاوةً على ذلك، وبما أن جميع النصوص الصينية تم ترجمتها إلى الإنجليزية، فإن مجموعة ChinaOpen-1k مناسبة أيضًا لتقييم النماذج التي تم تدريبها على بيانات إنجليزية. إلى جانب مجموعة ChinaOpen، نقترح نموذجًا جديدًا يُسمى "مُحول الفيديو إلى نص القائم على التوليد" (Generative Video-to-text Transformer - GVT) لكتابة وصفات الفيديو باللغة الصينية. وقمنا بإجراء تقييم مُفصل للنماذج الحديثة ذات المهمة الواحدة والمتعددة على هذه المجموعة الجديدة، مما أدى إلى اكتشافات جديدة ورؤى مهمة.