إعادة النظر في تعلم العواطف متعددة الأوضاع باستخدام نماذج الفضاء الحالة الواسعة ودمج التوجيه الاحتمالي

التعرف على العواطف متعدد الوسائط في المحادثة (MERC) حظي باهتمام كبير في مختلف المجالات، مثل التفاعل بين الإنسان والحاسوب وأنظمة التوصية. تركز معظم الأعمال الحالية على فصل السمات ودمجها لاستخراج المعلومات العاطفية السياقية من سمات متعددة الوسائط وتقييم العواطف. بعد إعادة النظر في خصائص MERC، نعتقد أنه يجب استخراج المعلومات الدلالية السياقية طويلة المدى في مرحلة فصل السمات، ويجب تحقيق أقصى قدر من التناسق الدلالي بين الوسائط في مرحلة دمج السمات. مستوحاة من النماذج الفضائية الحديثة (State Space Models - SSMs)، يمكن لنظام Mamba أن يُشكل بفعالية الارتباطات البعيدة. لذلك، في هذا العمل، نأخذ بالاعتبار هذه الرؤى بشكل كامل لتحسين أداء MERC بشكل أكبر. تحديداً، من ناحية أولى، في مرحلة فصل السمات، نقترح نظام Mamba موسّعًا، الذي لا يعتمد على آلية الانتباه الذاتي (self-attention) للنمذجة التسلسلية، بل يستخدم النماذج الفضائية لضغط التمثيل العاطفي، ويستفيد من أنظمة التعلم الموسّعة لاستكشاف توزيع البيانات المحتمل في الفضاء الواسع. على عكس النماذج الفضائية السابقة (SSMs)، نصمم اتصالاً تردديًا ثنائي الاتجاه للنموذج الفضائي لاستخراج المعلومات السياقية العالمية. ومن ناحية ثانية، نصمم استراتيجية دمج متعدد الوسائط تعتمد على الإرشاد الاحتمالي لتحقيق أقصى قدر من التناسق بين المعلومات عبر الوسائط المختلفة. تظهر النتائج التجريبية أن الطريقة المقترحة يمكنها التغلب على حدود الحساب والذاكرة التي يواجهها محول Transformer عند نمذجة السياقات البعيدة، ولديها إمكانات كبيرة لأن تصبح هيكلًا عامًا جيل جديد في مجال MERC.