التمثيلات المتعددة الأوضاع المشتركة المنسقة لتصنيف الصور المرئية والصوتية الصفرية العام واسترجاع الفيديوهات

نقدم نهجًا متعدد الوسائط صوتيًا وبصريًا للمهمة التعلمية الصفرية (ZSL) لتصنيف واسترجاع الفيديوهات. لقد تم دراسة ZSL بشكل مكثف في السنوات الأخيرة، ولكنها كانت تقتصر في الغالب على الوسيلة البصرية والصور. نثبت أن كل من الوسيلتين الصوتية والبصرية مهمتان للتعلم الصفرى للفيديوهات. نظرًا لعدم وجود مجموعة بيانات لدراسة هذه المهمة حاليًا، فقد قمنا أيضًا ببناء مجموعة بيانات متعددة الوسائط مناسبة تتضمن 33 فئة تحتوي على 156,416 فيديو، مستخدمين مجموعة بيانات كبيرة الحجم موجودة مسبقًا للأحداث الصوتية. نظهر تجريبيًا أن الأداء يتحسن بإضافة الوسيلة الصوتية لكلتا مهمتي التعلم الصفرى للتصنيف والاسترجاع عند استخدام توسعات متعددة الوسائط لطرق تعلم الانغماس (embedding learning methods). كما نقترح طريقة جديدة لتوقع الوسيلة "المسيطرة" باستخدام شبكة انتباه مشتركة تم تعلمها. نتعلم الانتباه في إعداد شبه مشرف عليه، وبالتالي لا نحتاج إلى أي تصنيف صريح إضافي للوسائط. نوفر أيضًا تحققًا نوعيًا من انتباه الوسائط المحدد، والذي يعمم بنجاح على فئات الاختبار غير المرئية.