M2FNet: شبكة تكامل متعددة الوسائط للتعرف على المشاعر في المحادثة

تمثّل التعرف على المشاعر في المحادثات (ERC) عنصرًا حيويًا في تطوير تفاعل بشري-آلي متعاطف. في مقاطع الفيديو الحوارية، يمكن أن تظهر المشاعر في عدة وسائط، مثل الصوت والفيديو والنص المكتوب. ومع ذلك، نظرًا للخصائص المتأصلة في هذه الوسائط، يُعتبر التعرف على المشاعر متعدد الوسائط دائمًا مهمة صعبة. تركز الأبحاث الحالية في مجال ERC بشكل رئيسي على استخدام المعلومات النصية في المناقشات، مع إهمال الوسائط الأخرى. نتوقع أن يمكن تحسين دقة التعرف على المشاعر من خلال توظيف نهج متعدد الوسائط. ولذلك، في هذه الدراسة، نقترح شبكة تكامل متعدد الوسائط (M2FNet) تقوم باستخراج الميزات المرتبطة بالمشاعر من الوسائط البصرية والصوتية والنصية. وتستخدم الشبكة آلية تكامل تعتمد على الانتباه متعدد الرؤوس (multi-head attention) لدمج التمثيلات الكامنة الغنية بالمشاعر للبيانات المدخلة. كما نقدّم مستخرِج ميزات جديد لاستخراج الميزات الكامنة من الوسائط الصوتية والبصرية. ويتم تدريب هذا المستخرج الجديد باستخدام دالة خسارة ثلاثية قائمة على حد مرن مبتكر، بهدف تعلّم الميزات المرتبطة بالمشاعر من البيانات الصوتية والبصرية. في مجال ERC، تُظهر الطرق الحالية أداءً جيدًا على مجموعة بيانات معيارية واحدة، ولكنها لا تُحقق نفس المستوى من الأداء على مجموعات بيانات أخرى. وتشير نتائجنا إلى أن معمارية M2FNet المقترحة تتفوّق على جميع الطرق الأخرى من حيث متوسط F1 الموزون على مجموعتي بيانات معروفتين هما MELD وIEMOCAP، وتحدد أداءً جديدًا لحالة الفن (state-of-the-art) في مجال التعرف على المشاعر في المحادثات.