تعقب الدلائل المعقدة في الحوار: بنية الرسم البياني المشتركة وديناميكيات المشاعر للاعتراف بالمشاعر متعددة الوسائط

لقد حظي التعرف على العواطف متعددة الوسائط في المحادثة (MERC) باهتمام بحثي كبير مؤخرًا. تواجه الطرق الحالية للتعرف على العواطف متعددة الوسائط عدة تحديات: (1) فشلها في الاستفادة الكاملة من الإشارات المباشرة بين الوسائط، مما قد يؤدي إلى نمذجة عابرة للوسائط غير مكتملة؛ (2) استخراج المعلومات من نفس الوسائط ووسائط مختلفة في كل طبقة من طبقات الشبكة بشكل متزامن، مما قد يثير النزاعات من دمج البيانات المتعددة المصادر؛ (3) عدم امتلاكها للمرونة المطلوبة للكشف عن التغيرات العاطفية الديناميكية، مما قد يؤدي إلى تصنيف غير دقيق للعبارات التي تحتوي على تغييرات مفاجئة في العاطفة. لحل هذه القضايا، تم اقتراح نهج جديد يُسمى GraphSmile لمتابعة الإشارات العاطفية المعقدة في المحادثات متعددة الوسائط.يتكون GraphSmile من مكونين رئيسيين وهما وحدتي GSF وSDP. تستفيد وحدة GSF ببراعة من الهياكل الرسمية البيانية لتدمج تبعيات العواطف بين الوسائط وفي داخل الوسائط طبقة بعد طبقة، مما يضمن التقاط الإشارات العابرة للوسائط بشكل كافٍ بينما يتم تجنب النزاعات الدمجية بكفاءة. أما وحدة SDP فهي مهمة معاونة تهدف إلى تحديد الديناميكيات العاطفية بين العبارات بشكل صريح، مما يعزز قدرة النموذج على تمييز الاختلافات العاطفية. بالإضافة إلى ذلك، يمكن تطبيق GraphSmile بسهولة على تحليل المشاعر متعدد الوسائط في المحادثة (MSAC)، مما يشكل نموذجًا مشتركًا متعدد الوسائط قادرًا على تنفيذ مهام MERC وMSAC. أظهرت النتائج التجريبية على عدة مقاييس أن GraphSmile قادر على التعامل مع الأنماط العاطفية والمشاعر المعقدة، وأنه يتفوق بشكل كبير على النماذج الأساسية.