HyperAIHyperAI
منذ 2 أشهر

الانتباه الزمني والانتباه عبر الحواس للتعلم الصوتي-البصري بدون أمثلة سابقة

Mercea, Otniel-Bogdan ; Hummel, Thomas ; Koepke, A. Sophia ; Akata, Zeynep
الانتباه الزمني والانتباه عبر الحواس للتعلم الصوتي-البصري بدون أمثلة سابقة
الملخص

التعلم الصوتي-بصري العام بدون عينات لتصنيف الفيديو يتطلب فهم العلاقات بين المعلومات الصوتية والبصرية من أجل القدرة على التعرف على العينات من فئات جديدة لم يتم رؤيتها سابقًا أثناء الاختبار. يمكن استغلال التناظر الدلالي والزماني الطبيعي بين البيانات الصوتية والبصرية في بيانات الفيديو لتعلم تمثيلات قوية تعمم إلى الفئات غير المعروفة أثناء الاختبار. نقترح إطارًا متعدد الوسائط ومتعدد الأزمنة للانتباه المتقاطع (\modelName) للتعلم الصوتي-بصري العام بدون عينات. مدخلاته هي الخصائص الصوتية والبصرية المتزامنة زمنيًا التي يتم الحصول عليها من شبكات مسبقة التدريب. تشجيع الإطار على التركيز على التوافق بين الوسائط عبر الزمن بدلاً من الانتباه الذاتي داخل الوسائط يعزز الأداء بشكل كبير. نوضح أن الإطار المقترح الذي يستخدم الخصائص الزمنية يحقق أداءً يتفوق على أفضل ما تم تحقيقه حتى الآن في مقاييس \ucf، \vgg، و\activity لـ (التعلم العام بدون عينات). الكود لإعادة إنتاج جميع النتائج متاح في الرابط التالي: \url{https://github.com/ExplainableML/TCAF-GZSL}.

الانتباه الزمني والانتباه عبر الحواس للتعلم الصوتي-البصري بدون أمثلة سابقة | أحدث الأوراق البحثية | HyperAI