التعلم الصوتي-البصري العام بدون أمثلة مع انتباه متعدد الوسائط واللغة

تعلم تصنيف بيانات الفيديو من فئات غير مدرجة في بيانات التدريب، أي التعلم الصفرى القائم على الفيديو، يعد تحديًا. نفترض أن التناظر الطبيعي بين الوسائط السمعية والبصرية في بيانات الفيديو يوفر إشارة تدريب غنية لتعلم تمثيلات متعددة الوسائط تمييزية. مع التركيز على مهمة التعلم الصفرى السمعي-البصري النسبية التي لم يتم استكشافها بشكل كافٍ، نقترح تعلم تمثيلات متعددة الوسائط من البيانات السمعية-البصرية باستخدام الانتباه المتقاطع (cross-modal attention) والاستفادة من تضمين العلامات النصية (textual label embeddings) لنقل المعرفة من الفئات المرئية إلى الفئات غير المرئية.وبخطوة إضافية، في إطارنا العام للتعلم الصفرى السمعي-البصري، نتضمن جميع فئات التدريب في مجال البحث عند الاختبار، مما يعمل كمشتتات ويزيد من صعوبة المهمة بينما يجعل الإعداد أكثر واقعية. نتيجة لنقص وجود معيار موحد في هذا المجال، نقدم معيارًا للتعلم الصفرى (العام) على ثلاثة مجموعات بيانات سمعية-بصرية بحجم وأداء مختلفين: VGGSound وUCF وActivityNet، مع ضمان عدم ظهور الفئات غير المرئية في مجموعة البيانات المستخدمة لتدريب النماذج العميقة تحت الإشراف. عند مقارنة العديد من الأساليب ذات الصلة والحديثة، نثبت أن نموذج AVCA المقترح لدينا يحقق أداءً رائدًا في جميع الثلاثة مجموعات بيانات. الرمز والمعلومات متاحة على الرابط \url{https://github.com/ExplainableML/AVCA-GZSL}.