MultiMAE-DER: متعدد الوسائط مُشغّل الترميز الذاتي المقنّع للاعتراف بالمشاعر الديناميكية

يقدم هذا البحث نهجًا جديدًا لمعالجة البيانات متعددة الوسائط للاعتراف بالمشاعر الديناميكية، يُطلق عليه اسم الترميز الآلي المقنّع متعدد الوسائط للاعتراف بالمشاعر الديناميكية (MultiMAE-DER). يستفيد MultiMAE-DER من المعلومات التمثيلية المرتبطة بشكل وثيق داخل المتتاليات الزمانية-المكانية عبر الوسائط البصرية والصوتية. من خلال استخدام نموذج ترميز آلي مقنّع مسبق التدريب، يتم تحقيق MultiMAE-DER من خلال تعديل بسيط ومباشر. يتم تحسين أداء MultiMAE-DER عن طريق تحسين ست استراتيجيات دمج للمتتاليات الإدخال متعددة الوسائط. هذه الاستراتيجيات تعالج ارتباطات الخصائص الديناميكية في البيانات العابرة للنطاقات عبر المتتاليات المكانية والزمانية والزمانية-المكانية. عند المقارنة مع نماذج التعلم الإشرافي متعدد الوسائط الأكثر تقدمًا للاعتراف بالمشاعر الديناميكية، يزيد MultiMAE-DER من استرجاع الذكاء المتوسط المرتبط بالأوزان (WAR) بنسبة 4.41٪ على مجموعة بيانات RAVDESS وبنسبة 2.06٪ على مجموعة بيانات CREMAD. بالإضافة إلى ذلك، عند المقارنة مع نموذج التعلم الذاتي الإشرافي متعدد الوسائط الأكثر تقدمًا، يحقق MultiMAE-DER زيادة في WAR بنسبة 1.86٪ على مجموعة بيانات IEMOCAP.