HyperAIHyperAI

Command Palette

Search for a command to run...

Exploration des caractéristiques émotionnelles et des stratégies de fusion pour la reconnaissance émotionnelle audio-vidéo

Hengshun Zhou* Debin Meng* Yuanyuan Zhang Xiaojiang Peng† Jun Du Kai Wang Yu Qiao*

Résumé

La reconnaissance d'émotions basée sur l'audio-vidéo vise à classer une vidéo donnée en émotions de base. Dans cet article, nous décrivons nos approches pour EmotiW 2019, qui explorent principalement les caractéristiques émotionnelles et les stratégies de fusion de caractéristiques pour les modalités audio et visuelle. Pour les caractéristiques émotionnelles, nous examinons les caractéristiques audio à travers le spectrogramme vocal et le Log Mel-spectrogramme, et nous évaluons plusieurs caractéristiques faciales avec différents modèles de CNN (Convolutional Neural Network) et différentes stratégies pré-entraînées en émotions. En ce qui concerne les stratégies de fusion, nous explorons des méthodes de fusion intra-modale et inter-modale, telles que la conception de mécanismes d'attention pour mettre en avant les caractéristiques émotionnelles importantes, ainsi que la concaténation de caractéristiques et le regroupement bilinéaire factorisé (FBP) pour la fusion inter-modale de caractéristiques. Après une évaluation minutieuse, nous obtenons un taux de précision de 65,5% sur l'ensemble de validation AFEW (Affective Behavior Analysis in-the-wild) et de 62,48% sur l'ensemble de test, ce qui nous place au troisième rang du défi.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp