HyperAIHyperAI
منذ 2 أشهر

AVGZSLNet: التعلم الصوتي البصري المعمم بإعادة بناء خصائص التسمية من التضمينات متعددة الأوضاع

Mazumder, Pratik ; Singh, Pravendra ; Parida, Kranti Kumar ; Namboodiri, Vinay P.
AVGZSLNet: التعلم الصوتي البصري المعمم بإعادة بناء خصائص التسمية من التضمينات متعددة الأوضاع
الملخص

في هذا البحث، نقترح منهجًا جديدًا للتعلم الصفراتي العام في بيئة متعددة الوسائط، حيث نواجه فئات جديدة من الصوت والفيديو أثناء الاختبار لم تظهر خلال التدريب. نستخدم الصلة الدلالية لتمثيلات النص كوسيلة للتعلم الصفراتي عن طريق مواءمة تمثيلات الصوت والفيديو مع فضاء الخصائص النصية للتصنيف الفئوي. يفرض منشئ الوسائط المتداخلة (cross-modal decoder) قيدًا على إمكانية إعادة بناء خصائص النص الفئوي من تمثيلات الصوت والفيديو للنقاط البيانات. هذا يساعد في تقريب تمثيلات الصوت والفيديو إلى تمثيل النص الفئوي. تستخدم الخسارة الثلاثية المركبة (composite triplet loss) تمثيلات الصوت والفيديو والنص. تسهم هذه الخسارة في تقريب التمثيلات من نفس الفئة ودفع التمثيلات من فئات مختلفة بعيدًا في بيئة متعددة الوسائط. هذا يساعد الشبكة على الأداء بشكل أفضل في مهمة التعلم الصفراتي المتعدد الوسائط.من المهم أن منهجنا للتعلم الصفراتي المتعدد الوسائط يعمل حتى لو كانت واحدة من الوسائط مفقودة أثناء الاختبار. نختبر منهجنا على مهام التصنيف الصفراتي العام واسترجاع البيانات، ونوضح أن منهجنا يتفوق على النماذج الأخرى سواء في وجود وسيلة واحدة أو عدة وسائل. نؤكد صحة منهجنا عبر مقارنته بالمناهج السابقة واستخدام مجموعة متنوعة من التجارب الاستبعادية (ablations).

AVGZSLNet: التعلم الصوتي البصري المعمم بإعادة بناء خصائص التسمية من التضمينات متعددة الأوضاع | أحدث الأوراق البحثية | HyperAI