il y a 2 mois

Exploration des caractéristiques émotionnelles et des stratégies de fusion pour la reconnaissance émotionnelle audio-vidéo

Hengshun Zhou; Debin Meng; Yuanyuan Zhang; Xiaojiang Peng; Jun Du; Kai Wang; Yu Qiao

Résumé

La reconnaissance d'émotions basée sur l'audio-vidéo vise à classer une vidéo donnée en émotions de base. Dans cet article, nous décrivons nos approches pour EmotiW 2019, qui explorent principalement les caractéristiques émotionnelles et les stratégies de fusion de caractéristiques pour les modalités audio et visuelle. Pour les caractéristiques émotionnelles, nous examinons les caractéristiques audio à travers le spectrogramme vocal et le Log Mel-spectrogramme, et nous évaluons plusieurs caractéristiques faciales avec différents modèles de CNN (Convolutional Neural Network) et différentes stratégies pré-entraînées en émotions. En ce qui concerne les stratégies de fusion, nous explorons des méthodes de fusion intra-modale et inter-modale, telles que la conception de mécanismes d'attention pour mettre en avant les caractéristiques émotionnelles importantes, ainsi que la concaténation de caractéristiques et le regroupement bilinéaire factorisé (FBP) pour la fusion inter-modale de caractéristiques. Après une évaluation minutieuse, nous obtenons un taux de précision de 65,5% sur l'ensemble de validation AFEW (Affective Behavior Analysis in-the-wild) et de 62,48% sur l'ensemble de test, ce qui nous place au troisième rang du défi.