نموذج الانتباه المتقاطع الهرمي لتقدير المشاعر متعددة الوسائط

تمييز المشاعر في المحادثات يُعدّ تحديًا بسبب الطبيعة متعددة الوسائط لتعبير المشاعر. نقترح نموذجًا هرميًا للانتباه المتقاطع (HCAM) لتمييز المشاعر متعددة الوسائط، باستخدام مزيج من نماذج الشبكات العصبية التكرارية (Recurrent Neural Networks) ونماذج الانتباه المشترك (Co-Attention). يتكون المدخل إلى النموذج من وسيلتين: أولاً، بيانات صوتية تُعالج باستخدام نهج قابل للتعلم يُسمى wav2vec، وثانيًا، بيانات نصية تمثل باستخدام نموذج تمثيلات الترميز ثنائي الاتجاه من نموذج المحولات (BERT). يتم معالجة تمثيلات الصوت والنص باستخدام مجموعة من طبقات الشبكات العصبية التكرارية الثنائية الاتجاه مع انتباه ذاتي، والتي تحول كل جملة في المحادثة إلى تمثيل ثابت البُعد. ولدمج المعرفة السياقية ومعلومات الوسائط المختلفة، يتم دمج تمثيلات الصوت والنص باستخدام طبقة انتباه مشترك، تسعى إلى تقييم أهمية تمثيلات الجملة بالنسبة لمهام تمييز المشاعر. يتم تدريب معاملات الشبكة العصبية في طبقات الصوت، وطبقات النص، وكذلك طبقات الانتباه المشترك متعددة الوسائط بشكل هرمي لمهام تصنيف المشاعر. أجرينا تجارب على ثلاث مجموعات بيانات معروفة، وهي IEMOCAP وMELD وCMU-MOSI، حيث أظهرنا أن النموذج المقترح يتفوق بشكل ملحوظ على النماذج الأخرى، ويُسهم في تحقيق نتائج من المستوى الرائد (State-of-the-Art) في جميع هذه المجموعات.