CFN-ESA: شبكة تجميع عبر النماذج ذات الوعي بتحول المشاعر للتعرف على المشاعر في المحادثات

لقد حظيت التعرف على المشاعر متعددة الوسائط في المحادثات (ERC) باهتمام متزايد من قبل مجتمعات البحث في مجالات مختلفة. في هذه الورقة، نقترح شبكة تجميع متعددة الوسائط ذات وعي بتحول المشاعر (CFN-ESA) للتعرف على المشاعر في المحادثات. تُعد النماذج الحالية تُعامل كل وسيلة بالتساوي دون تمييز كمية المعلومات العاطفية المتوفرة في كل وسيلة، مما يجعل من الصعب استخلاص المعلومات المكملة بشكل كافٍ من البيانات متعددة الوسائط. وللتغلب على هذه المشكلة، نعتبر في CFN-ESA الوسيلة النصية المصدر الأساسي للمعلومات العاطفية، بينما تُعتبر الوسائط البصرية والصوتية مصادر ثانوية. بالإضافة إلى ذلك، تتجاهل معظم النماذج متعددة الوسائط معلومات تحول المشاعر، وتُركز بشكل مفرط على المعلومات السياقية، مما يؤدي إلى فشل التعرف على المشاعر في السيناريوهات التي تشهد تغيرًا في المشاعر. ولحل هذه التحديات، نُقدّم وحدة تحول المشاعر. تتكون CFN-ESA بشكل رئيسي من معالج أحادي الوسيلة (RUME)، ومعالج متعدد الوسائط (ACME)، ووحدة تحول المشاعر (LESM). يُستخدم RUME لاستخراج المؤشرات العاطفية السياقية على مستوى المحادثة، مع دمج توزيعات البيانات بين الوسائط المختلفة؛ ويُطبَّق ACME لتنفيذ التفاعل متعدد الوسائط مع التركيز على الوسيلة النصية؛ ويُستخدم LESM لنمذجة تحول المشاعر وجمع معلومات التحول العاطفي، وبالتالي توجيه عملية التعلم للوظيفة الرئيسية. تُظهر النتائج التجريبية أن CFN-ESA تستطيع تعزيز الأداء بشكل فعّال في التعرف على المشاعر، وتتفوّق بشكل ملحوظ على النماذج الرائدة في المجال.