HyperAIHyperAI

Command Palette

Search for a command to run...

AVGZSLNet: التعلم الصوتي البصري المعمم بإعادة بناء خصائص التسمية من التضمينات متعددة الأوضاع

Pratik Mazumder Pravendra Singh Kranti Kumar Parida Vinay P. Namboodiri

الملخص

في هذا البحث، نقترح منهجًا جديدًا للتعلم الصفراتي العام في بيئة متعددة الوسائط، حيث نواجه فئات جديدة من الصوت والفيديو أثناء الاختبار لم تظهر خلال التدريب. نستخدم الصلة الدلالية لتمثيلات النص كوسيلة للتعلم الصفراتي عن طريق مواءمة تمثيلات الصوت والفيديو مع فضاء الخصائص النصية للتصنيف الفئوي. يفرض منشئ الوسائط المتداخلة (cross-modal decoder) قيدًا على إمكانية إعادة بناء خصائص النص الفئوي من تمثيلات الصوت والفيديو للنقاط البيانات. هذا يساعد في تقريب تمثيلات الصوت والفيديو إلى تمثيل النص الفئوي. تستخدم الخسارة الثلاثية المركبة (composite triplet loss) تمثيلات الصوت والفيديو والنص. تسهم هذه الخسارة في تقريب التمثيلات من نفس الفئة ودفع التمثيلات من فئات مختلفة بعيدًا في بيئة متعددة الوسائط. هذا يساعد الشبكة على الأداء بشكل أفضل في مهمة التعلم الصفراتي المتعدد الوسائط.من المهم أن منهجنا للتعلم الصفراتي المتعدد الوسائط يعمل حتى لو كانت واحدة من الوسائط مفقودة أثناء الاختبار. نختبر منهجنا على مهام التصنيف الصفراتي العام واسترجاع البيانات، ونوضح أن منهجنا يتفوق على النماذج الأخرى سواء في وجود وسيلة واحدة أو عدة وسائل. نؤكد صحة منهجنا عبر مقارنته بالمناهج السابقة واستخدام مجموعة متنوعة من التجارب الاستبعادية (ablations).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
AVGZSLNet: التعلم الصوتي البصري المعمم بإعادة بناء خصائص التسمية من التضمينات متعددة الأوضاع | مستندات | HyperAI