HyperAIHyperAI

Command Palette

Search for a command to run...

الانتباه الزمني والانتباه عبر الحواس للتعلم الصوتي-البصري بدون أمثلة سابقة

Otniel-Bogdan Mercea Thomas Hummel A. Sophia Koepke Zeynep Akata

الملخص

التعلم الصوتي-بصري العام بدون عينات لتصنيف الفيديو يتطلب فهم العلاقات بين المعلومات الصوتية والبصرية من أجل القدرة على التعرف على العينات من فئات جديدة لم يتم رؤيتها سابقًا أثناء الاختبار. يمكن استغلال التناظر الدلالي والزماني الطبيعي بين البيانات الصوتية والبصرية في بيانات الفيديو لتعلم تمثيلات قوية تعمم إلى الفئات غير المعروفة أثناء الاختبار. نقترح إطارًا متعدد الوسائط ومتعدد الأزمنة للانتباه المتقاطع (\modelName) للتعلم الصوتي-بصري العام بدون عينات. مدخلاته هي الخصائص الصوتية والبصرية المتزامنة زمنيًا التي يتم الحصول عليها من شبكات مسبقة التدريب. تشجيع الإطار على التركيز على التوافق بين الوسائط عبر الزمن بدلاً من الانتباه الذاتي داخل الوسائط يعزز الأداء بشكل كبير. نوضح أن الإطار المقترح الذي يستخدم الخصائص الزمنية يحقق أداءً يتفوق على أفضل ما تم تحقيقه حتى الآن في مقاييس \ucf، \vgg، و\activity لـ (التعلم العام بدون عينات). الكود لإعادة إنتاج جميع النتائج متاح في الرابط التالي: \url{https://github.com/ExplainableML/TCAF-GZSL}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp