HyperAIHyperAI
منذ 11 أيام

تحسين التعرف على المشاعر الصوتية من خلال البحث المُشتق عن البنية

Thejan Rajapakshe, Rajib Rana, Sara Khalifa, Berrak Sisman, Björn Schuller
تحسين التعرف على المشاعر الصوتية من خلال البحث المُشتق عن البنية
الملخص

تمثّل التعرف على المشاعر من خلال الصوت (SER) عاملاً محورياً في تمكين التواصل الواعي بالمشاعر ضمن التفاعلات بين الإنسان والآلة. وقد ساهمت التطورات الحديثة في التعلم العميق (DL) في تحسين أداء نماذج SER بشكل كبير من خلال زيادة تعقيد النماذج. ومع ذلك، يتطلب تصميم هياكل DL المثلى خبرة سابقة وتقييمات تجريبية. ومن المثير للإثارة أن يُقدّم البحث المعماري العصبي (NAS) مساراً واعداً لتحديد نموذج DL الأمثل تلقائياً. وبشكل خاص، يُعدّ البحث المعماري القابل للتفاضل (DARTS) طريقة فعّالة لاستخدام NAS في البحث عن نماذج مُحسّنة. ويُقدّم هذا البحث هيكلاً مُحسّناً باستخدام DARTS يجمع بين الشبكات العصبية التلافيفية (CNN) والشبكات العصبية التكرارية (LSTM)، بهدف تحسين أداء SER، حيث تستند اختيارية تكامل CNN وLSTM إلى الأدبيات السابقة لتوفير أداء مُحسّن. وعلى الرغم من أن DARTS قد تم تطبيقه سابقاً على مزيج من CNN وLSTM، فإن نهجنا يقدّم آلية جديدة، خصوصاً في اختيار عمليات CNN باستخدام DARTS. على عكس الدراسات السابقة، نتجنب فرض قيود على ترتيب الطبقات داخل الخلية DARTS الخاصة بـ CNN؛ بل نُتيح لـ DARTS تحديد ترتيب الطبقات الأمثل بشكل تلقائي. وقد أظهرت التجارب على مجموعتي بيانات IEMOCAP وMSP-IMPROV أن المنهجية المقترحة تحقق دقة أعلى بشكل ملحوظ في SER مقارنةً بتصميم يدوي للهيكل المدمج CNN-LSTM، كما تفوق النتائج المبلغ عنها حتى الآن باستخدام DARTS على مزيج CNN-LSTM.

تحسين التعرف على المشاعر الصوتية من خلال البحث المُشتق عن البنية | أحدث الأوراق البحثية | HyperAI