emoDARTS: تحسين مشترك لهيكل الشبكات العصبية التلافيفية والشبكات العصبية التسلسلية لتقدير عاطفة الصوت المتفوق

إن تمييز العواطف من خلال الكلام (SER) يُعد أمرًا بالغ الأهمية لتمكين الحواسيب من فهم المشاعر التي تُعبَّر عنها في الاتصال البشري. ومع التطورات الحديثة في التعلم العميق (DL)، تحسّنت أداء نماذج SER بشكل كبير. ومع ذلك، يتطلب تصميم بنية DL مثلى معرفة متخصصة وتقييمات تجريبية. وب fortunate، يوفر البحث عن الهياكل العصبية (NAS) حلًا محتملاً لتحديد النموذج الأمثل للتعلم العميق تلقائيًا. وتمثّل طريقة البحث المُميّز بالهياكل (DARTS) منهجًا فعّالًا بشكل خاص لاكتشاف النماذج المثلى. تقدّم هذه الدراسة معمول "emoDARTS"، وهي بنية مُحسَّنة باستخدام DARTS تجمع بين الشبكة العصبية التلافيفية (CNN) والشبكة العصبية التسلسلية (SeqNN: LSTM، RNN)، بهدف تعزيز أداء SER. وتدعم الأدبيات اختيار دمج CNN وLSTM لتحسين الأداء.بينما تم استخدام DARTS سابقًا لاختيار عمليات CNN وLSTM بشكل منفصل، فإن تقنيتنا تضيف آلية جديدة لاختيار عمليات CNN وSeqNN معًا باستخدام DARTS. على عكس الدراسات السابقة، لا نفرض قيودًا على ترتيب الطبقات في CNN، بل نسمح لـ DARTS باختيار أفضل ترتيب للطبقات داخل الخلية الخاصة بـ DARTS. ونُظهر من خلال تقييم منهجنا على مجموعات بيانات IEMOCAP وMSP-IMPROV وMSP-Podcast أن emoDARTS يتفوّق على النماذج التقليدية المُصممة من CNN-LSTM، ويتجاوز أفضل النتائج المُبلغ عنها سابقًا باستخدام DARTS على نموذج CNN-LSTM.