HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 4 أشهر

مقترح لتقدير العواطف متعددة الوسائط باستخدام المحولات الصوتية ووحدات الفعل على مجموعة بيانات RAVDESS

{Fernando Fernández-Martínez Juan M. Montero Zoraida Callejas David Griol Ricardo Kleinlein Cristina Luna-Jiménez}

الملخص

تُجذب التعرف على المشاعر اهتمام المجتمع البحثي بسبب تطبيقاتها المتعددة في مجالات مختلفة مثل الطب والقيادة الذاتية. في هذه الورقة، اقترحنا نظامًا تلقائيًا للتعرف على المشاعر يتكون من مُعرِّف مشاعر الصوت (SER) ومُعرِّف مشاعر الوجه (FER). بالنسبة لـ SER، قمنا بتقييم نموذج مُدرَّب مسبقًا من نوع xlsr-Wav2Vec2.0 باستخدام تقنيتين للتعلم الناقل: استخراج التمثيلات (embedding extraction) والدقة الدقيقة (fine-tuning). وقد حققنا أفضل نتائج دقة عندما قمنا بتدقيق النموذج بالكامل عن طريق إضافة شبكة متعددة الطبقات (multilayer perceptron) فوقه، مما يؤكد أن التدريب كان أكثر قوة عندما لم يبدأ من الصفر، وأن المعرفة السابقة للشبكة كانت مماثلة للمهمة التي تم تكييفها. أما بالنسبة لمُعرِّف مشاعر الوجه، فقد قمنا باستخراج وحدات السلوك (Action Units) من الفيديوهات، وقارنا بين أداء النماذج الثابتة (static models) والنمذجة التسلسلية (sequential models). وأظهرت النتائج أن النماذج التسلسلية تفوقت على النماذج الثابتة بفارق ضئيل. كما أشار التحليل الخاطئ إلى أن الأنظمة البصرية يمكن أن تتحسن من خلال استخدام كاشف للإطارات ذات الحمل العاطفي العالي، ما فتح خطًا بحثيًا جديدًا لاستكشاف طرق جديدة لاستخلاص المعرفة من الفيديوهات. وأخيرًا، وباستخدام استراتيجية دمج متأخر (late fusion) لهذه الوسائط الثنائية، توصلنا إلى دقة قدرها 86.70٪ على مجموعة بيانات RAVDESS في تقييم 5-مكرر حسب الموضوع (subject-wise 5-CV)، وتصنيف ثمانية مشاعر. وقد أظهرت النتائج أن هذه الوسائط تحمل معلومات ذات صلة للكشف عن الحالة العاطفية للمستخدم، وأن دمجها ساهم في تحسين أداء النظام النهائي.

المعايير القياسية

معيار قياسيالمنهجيةالمقاييس
emotion-recognition-on-ravdessLogisticRegression on posteriors of xlsr-Wav2Vec2.0&bi-LSTM+Attention
Accuracy: 86.70%
facial-emotion-recognition-on-ravdessbi-LSTM+Attention
Accuracy: 62.13%
speech-emotion-recognition-on-ravdessxlsr-Wav2Vec2.0(FineTuning)
Accuracy: 81.82%

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
مقترح لتقدير العواطف متعددة الوسائط باستخدام المحولات الصوتية ووحدات الفعل على مجموعة بيانات RAVDESS | الأوراق البحثية | HyperAI