TransModality: طريقة دمج من النهاية إلى النهاية باستخدام Transformer لتحليل المشاعر متعددة الوسائط

تحليل المشاعر متعدد الوسائط هو مجال بحثي مهم يهدف إلى توقع اتجاه مشاعر المُتحدث من خلال السمات المستخرجة من الوسائط النصية والبصرية والصوتية. والتحدي المركزي في هذا المجال يتمثل في طريقة دمج المعلومات المتعددة الوسائط. وقد تم اقتراح العديد من طرق الدمج، لكن قلة منها تستخدم نماذج الترجمة من النهاية إلى النهاية لاستكشاف العلاقات الدقيقة بين الوسائط. مستوحى من النجاح الأخير لنموذج Transformer في مجال الترجمة الآلية، نقترح طريقة جديدة للدمج تُسمى TransModality لمعالجة مهمة تحليل المشاعر متعددة الوسائط. ونفترض أن الترجمة بين الوسائط تسهم في تحسين تمثيل مشاعر المُتحدث المشترك. وباستخدام نموذج Transformer، تُعبّر السمات المُستخلصة عن المعلومات من الوسيط المصدري والوسيط الهدف معًا. وقد تم التحقق من نموذجنا على عدة مجموعات بيانات متعددة الوسائط: CMU-MOSI، MELD، IEMOCAP. وأظهرت التجارب أن الطريقة المقترحة تحقق أداءً من الطراز الرائد (state-of-the-art).