HyperAIHyperAI
منذ 16 أيام

التعرف على المشاعر متعددة الوسائط على مجموعة بيانات RAVDESS باستخدام التعلم النقلى

{Fernando Fernández-Martínez, Juan M. Montero, Ricardo Kleinlein, Zoraida Callejas, David Griol, Cristina Luna-Jiménez}
الملخص

إن اعتراف المشاعر يجذب انتباه المجتمع البحثي نظرًا للتطبيقات المتعددة التي يمكن أن تُستخدم فيها، مثل في مجال الرعاية الصحية أو أنظمة السلامة على الطرق. في هذه الورقة، نقترح نظامًا متعدد الوسائط لاعتراف المشاعر يعتمد على المعلومات الصوتية والصور الوجهية. بالنسبة للوسيط الصوتي، قمنا بتقييم عدة تقنيات للتعلم المنقول، وبشكل خاص استخراج المُدمجات (embedding extraction) وضبط الدقة (Fine-Tuning). وقد حقق أفضل نتائج دقة عند تطبيق عملية التحسين الدقيق (Fine-Tuning) على نموذج CNN-14 من إطار عمل PANNs، مما يؤكد أن التدريب يكون أكثر قوة عندما لا يبدأ من الصفر، وخاصةً عندما تكون المهام متشابهة. أما بالنسبة لمحاور اعتراف المشاعر الوجهية، فقد اقترحنا إطارًا يتكوّن من شبكة محولات فضائية (Spatial Transformer Network) مُدرّبة مسبقًا على خرائط الانتباه (saliency maps) والصور الوجهية، تليها شبكة LSTM ثنائية الاتجاه (bi-LSTM) مزودة بآلية انتباه (attention mechanism). وأظهر تحليل الأخطاء أن الأنظمة القائمة على الإطارات (frame-based) قد تواجه بعض المشكلات عند استخدامها مباشرةً لحل مهام الفيديو، رغم وجود التكيّف بين المجالات، ما يفتح خطًا بحثيًا جديدًا لاستكشاف طرق جديدة لتصحيح هذا التباين والاستفادة من المعرفة المُدمجة في النماذج المُدرّبة مسبقًا. وأخيرًا، من خلال دمج هذين الوسيطين باستخدام استراتيجية دمج متأخر (late fusion)، تم تحقيق دقة قدرها 80.08٪ على مجموعة بيانات RAVDESS في تقييم متقاطع موضوعي (subject-wise 5-CV)، مع تصنيف ثمانية مشاعر. وقد كشفت النتائج أن هذين الوسيطين يحملان معلومات ذات صلة للكشف عن الحالة العاطفية للمستخدم، وأن دمجهما يُسهم في تحسين أداء النظام بشكل ملحوظ.

التعرف على المشاعر متعددة الوسائط على مجموعة بيانات RAVDESS باستخدام التعلم النقلى | أحدث الأوراق البحثية | HyperAI