تعلم التمثيل الهيبرمتعدد الأشكال الموجه باللغة وذو التكيف التلقائي لتحليل المشاعر متعددة الوسائط

رغم أن تحليل المشاعر متعدد الوسائط (MSA) أثبت فعاليته من خلال الاستفادة من المعلومات الغنية المتوفرة من مصادر متعددة (مثل اللغة، الفيديو، والصوت)، إلا أن المعلومات التي لا تتعلق بالمشاعر أو المتناقضة بين الوسائط قد تعيق تحسين الأداء بشكل أكبر. ولتخفيف هذه المشكلة، نقدّم نموذج "مُحَوِّل متعدد الوسائط مُوجَّه باللغة بشكل تكيفي" (ALMT)، الذي يدمج وحدة تعلم الوسائط الفائقة التكيفية (AHL) لاستخلاص تمثيل يُقلل من تأثير المعلومات غير ذات صلة أو المتناقضة من السمات البصرية والصوتية، وذلك تحت إشراف سمات اللغة على مقياسات مختلفة. وباستخدام التمثيل الوسائطي الفائق المُحصل عليه، يمكن للنموذج الحصول على تمثيل متكامل ومتزامن من خلال دمج متعدد الوسائط، مما يُمكّنه من أداء تحليل مشاعر متعدد الوسائط بكفاءة. وفي الممارسة العملية، حقق ALMT أداءً متقدمًا على العديد من مجموعات البيانات الشهيرة (مثل MOSI وMOSEI وCH-SIMS)، كما أظهرت تجارب الاستبعاد الوافرة صحة وضرورة آلية كبح المعلومات غير ذات صلة أو المتناقضة التي قمنا بتصميمها.