مقترح لتقدير العواطف متعددة الوسائط باستخدام المحولات الصوتية ووحدات الفعل على مجموعة بيانات RAVDESS
{Fernando Fernández-Martínez Juan M. Montero Zoraida Callejas David Griol Ricardo Kleinlein Cristina Luna-Jiménez}
الملخص
تُجذب التعرف على المشاعر اهتمام المجتمع البحثي بسبب تطبيقاتها المتعددة في مجالات مختلفة مثل الطب والقيادة الذاتية. في هذه الورقة، اقترحنا نظامًا تلقائيًا للتعرف على المشاعر يتكون من مُعرِّف مشاعر الصوت (SER) ومُعرِّف مشاعر الوجه (FER). بالنسبة لـ SER، قمنا بتقييم نموذج مُدرَّب مسبقًا من نوع xlsr-Wav2Vec2.0 باستخدام تقنيتين للتعلم الناقل: استخراج التمثيلات (embedding extraction) والدقة الدقيقة (fine-tuning). وقد حققنا أفضل نتائج دقة عندما قمنا بتدقيق النموذج بالكامل عن طريق إضافة شبكة متعددة الطبقات (multilayer perceptron) فوقه، مما يؤكد أن التدريب كان أكثر قوة عندما لم يبدأ من الصفر، وأن المعرفة السابقة للشبكة كانت مماثلة للمهمة التي تم تكييفها. أما بالنسبة لمُعرِّف مشاعر الوجه، فقد قمنا باستخراج وحدات السلوك (Action Units) من الفيديوهات، وقارنا بين أداء النماذج الثابتة (static models) والنمذجة التسلسلية (sequential models). وأظهرت النتائج أن النماذج التسلسلية تفوقت على النماذج الثابتة بفارق ضئيل. كما أشار التحليل الخاطئ إلى أن الأنظمة البصرية يمكن أن تتحسن من خلال استخدام كاشف للإطارات ذات الحمل العاطفي العالي، ما فتح خطًا بحثيًا جديدًا لاستكشاف طرق جديدة لاستخلاص المعرفة من الفيديوهات. وأخيرًا، وباستخدام استراتيجية دمج متأخر (late fusion) لهذه الوسائط الثنائية، توصلنا إلى دقة قدرها 86.70٪ على مجموعة بيانات RAVDESS في تقييم 5-مكرر حسب الموضوع (subject-wise 5-CV)، وتصنيف ثمانية مشاعر. وقد أظهرت النتائج أن هذه الوسائط تحمل معلومات ذات صلة للكشف عن الحالة العاطفية للمستخدم، وأن دمجها ساهم في تحسين أداء النظام النهائي.
المعايير القياسية
| معيار قياسي | المنهجية | المقاييس |
|---|---|---|
| emotion-recognition-on-ravdess | LogisticRegression on posteriors of xlsr-Wav2Vec2.0&bi-LSTM+Attention | Accuracy: 86.70% |
| facial-emotion-recognition-on-ravdess | bi-LSTM+Attention | Accuracy: 62.13% |
| speech-emotion-recognition-on-ravdess | xlsr-Wav2Vec2.0(FineTuning) | Accuracy: 81.82% |
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.