الانتباه التبادلي السياقي لتحليل المشاعر متعدد الوسائط

تحليل المشاعر متعدد الوسائط يواجه مجموعة من التحديات، من أبرزها الجمع الفعّال بين مختلف وسائط المدخلات، مثل النص والصورة والصوت. في هذه الورقة، نقترح إطارًا قائمًا على الشبكة العصبية التكرارية لتحليل المشاعر متعدد الوسائط، يعتمد على المعلومات السياقية لتوقع مشاعر الجملة (utterance-level sentiment). تعتمد الطريقة المقترحة على تطبيق الانتباه (attention) على تمثيلات متعددة الوسائط متعددة الجمل، وتحاول تعلّم الميزات المساهمة بينها. تم تقييم النهج المقترح على مجموعتي بيانات معياريّتين لتحليل المشاعر متعدد الوسائط، وهما مجموعة CMU Multi-modal Opinion-level Sentiment Intensity (CMU-MOSI) ومجموعة CMU Multi-modal Opinion Sentiment and Emotion Intensity (CMU-MOSEI) التي أُطلقت حديثًا. أظهرت نتائج التقييم فعالية النهج المقترح، حيث بلغت دقة التنبؤ 82.31% و79.80% على مجموعتي بيانات MOSI وMOSEI على التوالي. وتشير هذه النتائج إلى تحسّن أداء النموذج بنسبة تقارب نقطتين ونقطة واحدة مقارنة بالنماذج الحالية المتطورة (state-of-the-art) على كلتا المجموعتين.