HyperAIHyperAI
منذ 18 أيام

تحليل العواطف متعدد التصنيفات في المحادثة من خلال التعلم المعرفي متعدد الوسائط

{Junsong Yuan, Sreyasee Das Bhattacharjee, Naresh Kumar Devulapally, Sidharth Anand}
تحليل العواطف متعدد التصنيفات في المحادثة من خلال التعلم المعرفي متعدد الوسائط
الملخص

تقييم مشاعر المتكلم في المحادثات يُعد أمرًا بالغ الأهمية لتطبيقات متعددة تتطلب تفاعلًا بشريًا-آليًا. ومع ذلك، فإن التداخل بين حالات عاطفية متعددة (مثل "الغضب" و"الاستياء") قد يحدث معًا، أو قد تؤثر إحداها في الأخرى، كما أن تطورها الديناميكي قد يختلف بشكل كبير بسبب السياقات الداخلية (مثل التأثير الناتج عن الخلفيات الاجتماعية-الثقافية-التعليمية والديموغرافية الفردية) والخارجية للمتكلم. حتى الآن، ركزت الدراسات السابقة على تقييم المشاعر السائدة فقط التي تُلاحظ عند المتكلم في لحظة معينة، وهي طريقة عرضية تُعرّض النتائج إلى اتخاذ قرارات تصنيف مضللة في حالات التصنيف متعدد العلامات الصعبة أثناء الاختبار. في هذا العمل، نقدم نموذج التعلم الذاتي متعدد العلامات بالتعاون التبادلي (SeMuL-PCD) من خلال شبكة تحويلية متعددة الوسائط فعالة، حيث يتم استخلاص التغذية المرتدة المكملة من شبكة أقران متعددة مخصصة لكل وسيلة (مثل النص، الصوت، البصر) وإدخالها إلى شبكة تجميع موحدة واحدة لتقدير مشاعر متعددة في آنٍ واحد. يُعد خسارة التجميع المتعددة الوسائط المُقترحة (Multimodal Distillation Loss) أداة لضبط الشبكة المدمجة من خلال تقليل انحراف كولبكا-ليبلر (Kullback-Leibler) بين الشبكة المدمجة والشبكات الأقران. علاوةً على ذلك، يتم تهيئة كل شبكة أقران باستخدام هدف تباين ذاتي (self-supervised contrastive objective) لتحسين القدرة على التعميم عبر خلفيات متنوعة من المتكلمين من حيث الخصائص الاجتماعية والديموغرافية. وبفضل تمكين التعلم التعاوني بين الشبكات الأقران، الذي يتيح لكل شبكة تعلم أنماط تمييزية مخصصة لكل وسيلة بشكل مستقل، يُظهر نموذج SeMuL-PCD كفاءة عالية في بيئات محادثات مختلفة. وبشكل خاص، يتفوق النموذج على أحدث النماذج الحالية في عدة مجموعات بيانات عامة كبيرة الحجم (مثل MOSEI، EmoReact، وElderReact)، كما يُظهر تحسنًا بنسبة تصل إلى 17٪ في مقياس F1 الموزون في تجارب التحويل بين المجموعات. كما يُظهر النموذج أيضًا قدرة استثنائية على التعميم عبر مجموعات سكانية متنوعة من حيث العمر والخلفيات الديموغرافية.