HyperAIHyperAI

Command Palette

Search for a command to run...

التعلم السمعي البصري المتنوع للاعتراف بالعواطف

Lucas Goncalves Seong-Gyun Leem Wei-Cheng Lin Berrak Sisman Carlos Busso

الملخص

معظم نماذج التعرف على العواطف السمعية والبصرية الحالية تفتقر إلى المرونة اللازمة لتطبيقها في التطبيقات العملية. نتصور نظامًا متعدد الوسائط يعمل حتى عند توفر وسيلة واحدة فقط ويمكن تنفيذه بشكل متبادل للتنبؤ بالخصائص العاطفية أو التعرف على العواطف الفئوية. تحقيق هذه المرونة في نظام التعرف على العواطف المتعدد الوسائط أمر صعب بسبب التحديات الأساسية في تفسير وتضمين مصادر البيانات المختلفة بدقة. كما يشكل التعامل مع المعلومات الناقصة أو الجزئية بثبات تحديًا، بينما يسمح بالتبديل المباشر بين مهام الانحدار أو التصنيف. يقدم هذا البحث إطارًا مرنًا للتعلم السمعي البصري (VAVL) لمعالجة الأنظمة أحادية الوسيلة ومتعددة الوسائط في مهام الانحدار العاطفي أو تصنيف العواطف. نقوم بتنفيذ إطار سمعي بصري يمكن تدريبه حتى عندما تكون بيانات الصوت والصورة المزدوجة غير متاحة لجزء من مجموعة التدريب (أي وجود الصوت فقط أو الفيديو فقط). نحقق هذا التعلم الفعال للممثلات باستخدام طبقات مشتركة سمعية وبصرية، واتصالات متبقية فوق الطبقات المشتركة، ومهمة إعادة بناء أحادية الوسيلة. تكشف نتائج تجاربنا أن هندستنا تتفوق بشكل كبير على القواعد الأساسية القوية في مجموعات البيانات CREMA-D وMSP-IMPROV وCMU-MOSEI. ومن الجدير بالذكر أن VAVL حقق أداءً جديدًا رائدًا في مهمة التنبؤ بالخصائص العاطفية على مجموعة بيانات MSP-IMPROV.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp