الشبكات العصبية السطحية مقابل العميقة: تحليل تجريبي لتصنيف المشاعر البشرية باستخدام بيانات الصوت
يمكن تحديد المشاعر البشرية بعدة طرق، تبدأ من تحليل الخصائص الصوتية للكلام، وتمثيل التعبيرات الوجهية التي تظهر قبل التحدث، وصولاً إلى الإشارات الحركية للجسم التي قد تشير إلى مشاعر مختلفة دون الحاجة إلى التحدث. إن معرفة المشاعر الصحيحة للفرد يمكن أن يسهم في فهم الوضع وربما التفاعل معه بشكل مناسب. ويعتبر هذا الظاهرة صحيحة أيضاً في العديد من أنظمة التغذية الراجعة المستخدمة في الاتصال اليومي مع البشر، وخاصة تلك المستخدمة في حلول المنازل الذكية. يشمل مجال التعرف التلقائي على المشاعر حالات استخدام متعددة في مجالات بحثية مختلفة، من رؤية الحاسوب والفيزيولوجيا إلى الذكاء الاصطناعي. تركز هذه الدراسة على تصنيف المشاعر إلى ثماني فئات، وهي: المحايد، والفرح، والحزن، والغضب، والهدوء، والخوف، والانزعاج، والدهشة، بناءً على الطريقة التي تم بها نطق الجمل، باستخدام قاعدة بيانات "ريزونر للصوت والصورة المشاعرية في الكلام والغناء" (RAVDESS). نقترح نهجًا جديدًا لتصنيف المشاعر في المحادثات الصوتية بناءً على إشارات الكلام. يعتمد التصنيف القائم على الخصائص الصوتية على استقلاله عن أي لغة متحدث بها، مما يسمح باستخدامه في التعرف على المشاعر عبر اللغات المختلفة. كان الهدف من هذا المساهمة هو تطوير نظام قادر على التعرف التلقائي على المشاعر في الوقت الفعلي أثناء الكلام. قمنا بإجراء عدة محاكاة، وتمكنا من تحقيق أعلى دقة تبلغ 82.99% باستخدام نموذج الشبكة العصبية التلافيفية السطحية (Shallow CNN).