HyperAIHyperAI
منذ 11 أيام

أداء مُحسَّن لاستخدام التعرف على العواطف الصوتية من خلال خوارزمية موسعة لتحليل الأوضاع التغيرية

David Hason Rudd, Huan Huo, Guandong Xu
أداء مُحسَّن لاستخدام التعرف على العواطف الصوتية من خلال خوارزمية موسعة لتحليل الأوضاع التغيرية
الملخص

تمثّل اعتراف المشاعر (ER) من إشارات الصوت منهجًا قويًا، نظرًا لأنه لا يمكن محاكاته كما هو الحال مع التعبيرات الوجهية أو تحليل المشاعر المستند إلى النص. إن المعلومات القيّمة الكامنة وراء المشاعر تُعدّ حاسمة لتحسين التفاعل بين الإنسان والحاسوب، مما يمكّن الآلات الذكية من التفاعل بحساسية في العالم الحقيقي. ركّزت الدراسات السابقة في مجال اعتراف المشاعر عبر معالجة إشارات الصوت بشكل حصري على العلاقات بين طرق تحليل أنماط الإشارة المختلفة والسمات المخفية المفيدة. ومع ذلك، فإن اختيار المعلمات غير المناسبة لعملية التحليل يؤدي إلى فقدان المكونات المفيدة من الإشارة نتيجة للتكرار المزدوج والخلط بين الأنماط. في المقابل، تقدّم هذه الدراسة خوارزمية مُحسّنة تُسمّى VGG-optiVMD، وهي خوارزمية لتحليل الأوضاع التغيرية (Variational Mode Decomposition)، تُميّز السمات المفيدة في الكلام وتُحدّد تلقائيًا عدد أنماط التحليل المطلوبة، بالإضافة إلى المعلمة المثلى لضبط قيد الولاء للبيانات، وذلك من خلال تقييم تأثير هذه العوامل على طبقة التسطيح في الشبكة VGG16. تم استخدام متجهات سمات مختلفة لتدريب شبكة VGG16 على قواعد بيانات متعددة، بهدف تقييم قابلية تكرار وموثوقية VGG-optiVMD. وقد تم بناء متجهات سمات أحادية، وثنائية، وثلاثية الأبعاد من خلال دمج معاملات كفاءة التردد الميل، والكروماتوجرام، وصور التردد الميل، وخرائط توننيت، ومركّزات الطيف. أثبتت النتائج وجود علاقة تآزرية بين ضبط معدل عينة الإشارة وضبط معلمات التحليل من جهة، ودقة التصنيف من جهة أخرى، حيث تم تحقيق دقة قياسية تبلغ 96.09% في التنبؤ بسبع مشاعر على قاعدة بيانات برلين EMO-DB.

أداء مُحسَّن لاستخدام التعرف على العواطف الصوتية من خلال خوارزمية موسعة لتحليل الأوضاع التغيرية | أحدث الأوراق البحثية | HyperAI