استكشاف خصائص العواطف واستراتيجيات الدمج للاعتراف بالعواطف الصوتية-المرئية

التمييز العاطفي القائم على الصوت والفيديو يهدف إلى تصنيف الفيديو المعطى إلى العواطف الأساسية. في هذا البحث، نصف نهجنا في تحدي EmotiW 2019، والذي يركز بشكل أساسي على استكشاف خصائص العواطف واستراتيجيات دمج الخصائص للنمط السمعي والبصري. بالنسبة لخصائص العواطف، نستكشف خاصية الصوت باستخدام كل من طيف الكلام وطيف ميل اللوغاريتمي (Log Mel-spectrogram)، ونقيم عدة خصائص وجهية باستخدام نماذج CNN مختلفة واستراتيجيات تدريب مسبقة مختلفة للعواطف. بالنسبة لاستراتيجيات الدمج، نستكشف طرق الدمج داخل النمط وعبر النمط، مثل تصميم آليات الانتباه لتسليط الضوء على الخصائص العاطفية المهمة، واستكشاف التجميع الخطي والدمج الثنائي المجزأ (FBP) لدمج الخصائص عبر النمط. بعد تقييم دقيق، حصلنا على نسبة 65.5% في مجموعة التحقق من صحة AFEW ونسبة 62.48% في مجموعة الاختبار، وحللنا في المركز الثالث في التحدي.