HyperAIHyperAI

Command Palette

Search for a command to run...

Détection et prédiction émotionnelles vidéo à supervision faible par réseau temporel d'effacement croisé multimodal

Jufeng Yang Lijuan Wang Zhicheng Zhang

Résumé

La prédiction automatique des émotions dans les vidéos générées par les utilisateurs (UGVs) suscite un intérêt croissant ces derniers temps. Toutefois, les méthodes existantes se concentrent principalement sur quelques cadres visuels clés, ce qui peut limiter leur capacité à capturer le contexte nécessaire à la représentation des émotions visées. Pour remédier à ce problème, nous proposons dans cet article un réseau temporel par élimination croisant les modalités, capable de localiser non seulement les cadres clés, mais aussi les informations contextuelles et audio, de manière faiblement supervisée. Plus précisément, nous exploitons d’abord les relations intra- et inter-modales entre différents segments afin de sélectionner avec précision les cadres clés. Ensuite, nous éliminons itérativement ces cadres clés afin d’inciter le modèle à se concentrer sur les contextes contenant des informations complémentaires. Des expériences étendues sur trois benchmarks exigeants pour la reconnaissance des émotions dans les vidéos montrent que notre méthode se distingue favorablement des approches les plus avancées. Le code source est disponible à l’adresse suivante : https://github.com/nku-zhichengzhang/WECL.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Détection et prédiction émotionnelles vidéo à supervision faible par réseau temporel d'effacement croisé multimodal | Articles | HyperAI