MMGCN: التكامل متعدد الوسائط من خلال شبكة الت convolution الرسومية العميقة للتعرف على المشاعر في المحادثة

تمثّل التعرف على المشاعر في المحادثات (ERC) عنصراً أساسياً في الأنظمة الحوارية العاطفية، حيث تساعد النظام على فهم مشاعر المستخدمين وإنتاج ردود استجابية متعاطفة. ومع ذلك، يركّز معظم الأبحاث على نمذجة معلومات المتحدث والسياق بشكل رئيسي من خلال الوسيلة النصية، أو ببساطة يستخدم المعلومات متعددة الوسائط من خلال تسلسل الميزات (feature concatenation). ولاستكشاف طريقة أكثر فعالية لاستخدام المعلومات متعددة الوسائط والمعلومات السياقية على مسافات طويلة، نقترح في هذا العمل نموذجاً جديداً يعتمد على شبكة تلافيفية رسمية متعددة الوسائط، تُعرف بـ MMGCN. يتيح MMGCN الاستفادة الفعّالة من الاعتماديات متعددة الوسائط، كما يسمح باستخدام معلومات المتحدث لنمذجة الاعتماديات بين المتحدثين وبين المتحدث نفسه. وقد تم تقييم النموذج المقترح على مجموعتين عامتين من البيانات المعيارية، وهما IEMOCAP وMELD، وأثبتت النتائج فعالية MMGCN، حيث تفوق على الطرق الحديثة (SOTA) الأخرى بمقدار كبير ضمن بيئة المحادثات متعددة الوسائط.