HyperAIHyperAI
منذ 2 أشهر

التعلم السمعي البصري المتنوع للاعتراف بالعواطف

Lucas Goncalves; Seong-Gyun Leem; Wei-Cheng Lin; Berrak Sisman; Carlos Busso
التعلم السمعي البصري المتنوع للاعتراف بالعواطف
الملخص

معظم نماذج التعرف على العواطف السمعية والبصرية الحالية تفتقر إلى المرونة اللازمة لتطبيقها في التطبيقات العملية. نتصور نظامًا متعدد الوسائط يعمل حتى عند توفر وسيلة واحدة فقط ويمكن تنفيذه بشكل متبادل للتنبؤ بالخصائص العاطفية أو التعرف على العواطف الفئوية. تحقيق هذه المرونة في نظام التعرف على العواطف المتعدد الوسائط أمر صعب بسبب التحديات الأساسية في تفسير وتضمين مصادر البيانات المختلفة بدقة. كما يشكل التعامل مع المعلومات الناقصة أو الجزئية بثبات تحديًا، بينما يسمح بالتبديل المباشر بين مهام الانحدار أو التصنيف. يقدم هذا البحث إطارًا مرنًا للتعلم السمعي البصري (VAVL) لمعالجة الأنظمة أحادية الوسيلة ومتعددة الوسائط في مهام الانحدار العاطفي أو تصنيف العواطف. نقوم بتنفيذ إطار سمعي بصري يمكن تدريبه حتى عندما تكون بيانات الصوت والصورة المزدوجة غير متاحة لجزء من مجموعة التدريب (أي وجود الصوت فقط أو الفيديو فقط). نحقق هذا التعلم الفعال للممثلات باستخدام طبقات مشتركة سمعية وبصرية، واتصالات متبقية فوق الطبقات المشتركة، ومهمة إعادة بناء أحادية الوسيلة. تكشف نتائج تجاربنا أن هندستنا تتفوق بشكل كبير على القواعد الأساسية القوية في مجموعات البيانات CREMA-D وMSP-IMPROV وCMU-MOSEI. ومن الجدير بالذكر أن VAVL حقق أداءً جديدًا رائدًا في مهمة التنبؤ بالخصائص العاطفية على مجموعة بيانات MSP-IMPROV.