جويفول: دمج المشاهد المشترك وتعلم التباين الرسومي للتمييز العاطفي متعدد الوسائط

تهدف التعرف على المشاعر متعددة الوسائط إلى التعرف على المشاعر لكل جملة ضمن وسائط متعددة، وقد حظيت باهتمام متزايد نظرًا لتطبيقاتها في التفاعل بين الإنسان والآلة. ومع ذلك، تفشل الطرق القائمة على الرسوم البيانية حاليًا في تصوير السمات السياقية العالمية والسمات الفردية المحلية المتنوعة في الحوار في آنٍ واحد. علاوةً على ذلك، مع زيادة عدد طبقات الرسم البياني، تميل هذه الطرق إلى التعرض لمشكلة التسطيح الزائد (over-smoothing). في هذا البحث، نقترح طريقةً جديدة تُسمى Joyful، تعتمد على دمج الوسائط بشكل مشترك وتعلم التباين على الرسوم البيانية للتطبيقات متعددة الوسائط في التعرف على المشاعر، حيث يتم تحسين دمج الوسائط، والتعلم التبايني، والتعرف على المشاعر بشكل مشترك. بشكل محدد، نصمم أولًا آلية جديدة لدمج الوسائط تتيح تفاعلًا عميقًا ودمجًا بين السمات السياقية العالمية والسمات المحددة لكل وسائط فردية. ثم نقدم إطارًا جديدًا للتعلم التبايني على الرسوم البيانية يعتمد على خسائر تباينية بين الأنواع (inter-view) وداخل النوع (intra-view)، بهدف استخلاص تمثيلات أكثر تمييزًا للعينات ذات المشاعر المختلفة. أظهرت التجارب الواسعة على ثلاث مجموعات بيانات معيارية أن طريقة Joyful حققت أداءً متقدمًا جدًا (SOTA) مقارنةً بجميع الطرق السابقة.