إطار عمل متعدد المهام متعدد الوسائط يراعي التعبيرات الوجهية للتعرف على المشاعر في المحادثات الجماعية

لقد لاقت مهمة التعرف على المشاعر متعددة الوسائط في المحادثات الجماعية (MERMC) اهتمامًا كبيرًا مؤخرًا. نظرًا لتعقيد المشاهد البصرية في المحادثات الجماعية، ركزت معظم الدراسات السابقة في مجال MERMC بشكل رئيسي على الوسائط النصية والصوتية، بينما تجاهلت المعلومات البصرية. في الآونة الأخيرة، اقترح عدد من الدراسات استخراج تسلسلات الوجوه كمميزات بصرية، وأظهرت هذه الدراسات الأهمية الكبيرة للمعلومات البصرية في مهام MERMC. ومع ذلك، فإن التسلسلات الوجهية المستخرجة من الطرق السابقة عند معالجة جملة معينة قد تحتوي على وجوه لعدة أشخاص، مما يؤدي بالضرورة إلى إدخال ضوضاء في توقع المشاعر الخاصة بالشخص الحقيقي المتكلم. ولحل هذه المشكلة، نقترح إطارًا ثنائي المراحل يُسمى التعلم متعدد المهام متعدد الوسائط المستند إلى التعبيرات الوجهية (FacialMMT). بشكل محدد، تم تصميم طريقة متسلسلة (pipeline) لاستخراج تسلسل الوجه الخاص بالشخص الحقيقي المتكلم لكل جملة، ويتضمن هذا التسلسل التعرف متعدد الوسائط على الوجوه، والتجميع غير المراقب للوجوه، وتوافق الوجوه. وباستخدام التسلسلات الوجهية المستخرجة، نقترح نموذجًا للإدراك العاطفي متعدد الوسائط يراعي التعبيرات الوجهية، والذي يستخدم توزيعات المشاعر الوجهية على مستوى الإطار لتحسين التعرف على المشاعر على مستوى الجملة من خلال التعلم متعدد المهام. أظهرت التجارب فعالية الإطار المُقترح FacialMMT على مجموعة بيانات المعيار MELD. وتم الإفراج عن الشفرة المصدرية بشكل عام على الرابط: https://github.com/NUSTM/FacialMMT.