HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 4 أشهر

التعرف على المشاعر متعددة الوسائط على مجموعة بيانات RAVDESS باستخدام التعلم النقلى

{Fernando Fernández-Martínez Juan M. Montero Ricardo Kleinlein Zoraida Callejas David Griol Cristina Luna-Jiménez}

الملخص

إن اعتراف المشاعر يجذب انتباه المجتمع البحثي نظرًا للتطبيقات المتعددة التي يمكن أن تُستخدم فيها، مثل في مجال الرعاية الصحية أو أنظمة السلامة على الطرق. في هذه الورقة، نقترح نظامًا متعدد الوسائط لاعتراف المشاعر يعتمد على المعلومات الصوتية والصور الوجهية. بالنسبة للوسيط الصوتي، قمنا بتقييم عدة تقنيات للتعلم المنقول، وبشكل خاص استخراج المُدمجات (embedding extraction) وضبط الدقة (Fine-Tuning). وقد حقق أفضل نتائج دقة عند تطبيق عملية التحسين الدقيق (Fine-Tuning) على نموذج CNN-14 من إطار عمل PANNs، مما يؤكد أن التدريب يكون أكثر قوة عندما لا يبدأ من الصفر، وخاصةً عندما تكون المهام متشابهة. أما بالنسبة لمحاور اعتراف المشاعر الوجهية، فقد اقترحنا إطارًا يتكوّن من شبكة محولات فضائية (Spatial Transformer Network) مُدرّبة مسبقًا على خرائط الانتباه (saliency maps) والصور الوجهية، تليها شبكة LSTM ثنائية الاتجاه (bi-LSTM) مزودة بآلية انتباه (attention mechanism). وأظهر تحليل الأخطاء أن الأنظمة القائمة على الإطارات (frame-based) قد تواجه بعض المشكلات عند استخدامها مباشرةً لحل مهام الفيديو، رغم وجود التكيّف بين المجالات، ما يفتح خطًا بحثيًا جديدًا لاستكشاف طرق جديدة لتصحيح هذا التباين والاستفادة من المعرفة المُدمجة في النماذج المُدرّبة مسبقًا. وأخيرًا، من خلال دمج هذين الوسيطين باستخدام استراتيجية دمج متأخر (late fusion)، تم تحقيق دقة قدرها 80.08٪ على مجموعة بيانات RAVDESS في تقييم متقاطع موضوعي (subject-wise 5-CV)، مع تصنيف ثمانية مشاعر. وقد كشفت النتائج أن هذين الوسيطين يحملان معلومات ذات صلة للكشف عن الحالة العاطفية للمستخدم، وأن دمجهما يُسهم في تحسين أداء النظام بشكل ملحوظ.

المعايير القياسية

معيار قياسيالمنهجيةالمقاييس
emotion-recognition-on-ravdessLogistic Regression on posteriors of the CNN-14&biLSTM-GuidedST
Accuracy: 80.08%
facial-emotion-recognition-on-ravdessGuided-ST and bi-LSTM with attention
Accuracy: 57.08%
speech-emotion-recognition-on-ravdessCNN-14 (Fine-Tuning)
Accuracy: 76.58%
speech-emotion-recognition-on-ravdessAlexNet (FineTuning)
Accuracy: 61.67%

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التعرف على المشاعر متعددة الوسائط على مجموعة بيانات RAVDESS باستخدام التعلم النقلى | الأوراق البحثية | HyperAI