Command Palette
Search for a command to run...
إعادة النظر في الفصل والدمج وفقًا للصيغة والسياق في التعرف على المشاعر متعددة الوسائط في المحادثات
إعادة النظر في الفصل والدمج وفقًا للصيغة والسياق في التعرف على المشاعر متعددة الوسائط في المحادثات
Bobo Li Hao Fei Lizi Liao Yu Zhao Chong Teng Tat-Seng Chua Donghong Ji Fei Li
الملخص
لقد أصبح موضوع تمكين الآلات من فهم المشاعر البشرية في السياقات متعددة الوسائط ضمن سيناريوهات الحوار موضوعًا بحثيًا حارًا، وهو ما يُعرف بتحليل المشاعر متعددة الوسائط في المحادثة (MM-ERC). وقد لاقت MM-ERC اهتمامًا مستمرًا في السنوات الأخيرة، حيث تم اقتراح مجموعة متنوعة من الأساليب لتحسين الأداء في هذه المهمة. تُعامل معظم الدراسات الحالية MM-ERC كمشكلة تصنيف متعددة الوسائط قياسية، وتُركّز على فصل الميزات متعددة الوسائط ودمجها بهدف تعظيم فعالية الميزات. ومع ذلك، وبعد إعادة تقييم الخصائص المميزة لـ MM-ERC، نُقدّم رأيًا مفاده أن كلاً من التعدد الوسائطي للميزات والتعميق السياقي للحوار ينبغي أن يُنَمَّى بشكل مناسب في نفس الوقت أثناء مراحل فصل ودمج الميزات. في هذا العمل، نهدف إلى تحسين أداء المهمة بشكل أكبر من خلال أخذ هذه الرؤى بعين الاعتبار بشكل كامل. من جهة، أثناء عملية فصل الميزات، وبناءً على تقنية التعلم المُقابل (contrastive learning)، نُصْمِم آلية فصل ثنائية المستوى (DDM) لفصل الميزات إلى كل من فضاء الوسائط وفضاء الجملة. ومن جهة أخرى، خلال مرحلة دمج الميزات، نقترح آلية دمج مُتَّسِقة مع المساهمات (CFM) وآلية إعادة دمج السياق (CRM) على التوالي، وذلك لدمج الميزات متعددة الوسائط والمعطيات السياقية. وتُنسّق هاتان الآليتان معًا التكامل المناسب للميزات متعددة الوسائط والمحادثات. وبشكل محدد، تُدير CFM مساهمات الميزات متعددة الوسائط بشكل ديناميكي وواضح، في حين تُنسّق CRM بشكل مرن إدخال السياقات الحوارية. وقد حقق نظامنا أداءً جديدًا قياسيًا على مجموعتي بيانات علنية لـ MM-ERC، مع تحسين مستمر. كما تُظهر التحليلات الإضافية أن جميع الآليات المقترحة تُسهم بشكل كبير في تحسين مهمة MM-ERC من خلال استغلال الميزات متعددة الوسائط والمحادثات السياقية بشكل تكيفي. يُذكر أن الأساليب المقترحة تمتلك إمكانات كبيرة لدعم مجموعة واسعة من المهام الحوارية متعددة الوسائط الأخرى.