HyperAIHyperAI

Command Palette

Search for a command to run...

التمثيلات المتعددة الأوضاع المشتركة المنسقة لتصنيف الصور المرئية والصوتية الصفرية العام واسترجاع الفيديوهات

Kranti Kumar Parida Neeraj Matiyali Tanaya Guha Gaurav Sharma

الملخص

نقدم نهجًا متعدد الوسائط صوتيًا وبصريًا للمهمة التعلمية الصفرية (ZSL) لتصنيف واسترجاع الفيديوهات. لقد تم دراسة ZSL بشكل مكثف في السنوات الأخيرة، ولكنها كانت تقتصر في الغالب على الوسيلة البصرية والصور. نثبت أن كل من الوسيلتين الصوتية والبصرية مهمتان للتعلم الصفرى للفيديوهات. نظرًا لعدم وجود مجموعة بيانات لدراسة هذه المهمة حاليًا، فقد قمنا أيضًا ببناء مجموعة بيانات متعددة الوسائط مناسبة تتضمن 33 فئة تحتوي على 156,416 فيديو، مستخدمين مجموعة بيانات كبيرة الحجم موجودة مسبقًا للأحداث الصوتية. نظهر تجريبيًا أن الأداء يتحسن بإضافة الوسيلة الصوتية لكلتا مهمتي التعلم الصفرى للتصنيف والاسترجاع عند استخدام توسعات متعددة الوسائط لطرق تعلم الانغماس (embedding learning methods). كما نقترح طريقة جديدة لتوقع الوسيلة "المسيطرة" باستخدام شبكة انتباه مشتركة تم تعلمها. نتعلم الانتباه في إعداد شبه مشرف عليه، وبالتالي لا نحتاج إلى أي تصنيف صريح إضافي للوسائط. نوفر أيضًا تحققًا نوعيًا من انتباه الوسائط المحدد، والذي يعمم بنجاح على فئات الاختبار غير المرئية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التمثيلات المتعددة الأوضاع المشتركة المنسقة لتصنيف الصور المرئية والصوتية الصفرية العام واسترجاع الفيديوهات | مستندات | HyperAI