Détection et prédiction émotionnelles vidéo à supervision faible par réseau temporel d'effacement croisé multimodal

La prédiction automatique des émotions dans les vidéos générées par les utilisateurs (UGVs) suscite un intérêt croissant ces derniers temps. Toutefois, les méthodes existantes se concentrent principalement sur quelques cadres visuels clés, ce qui peut limiter leur capacité à capturer le contexte nécessaire à la représentation des émotions visées. Pour remédier à ce problème, nous proposons dans cet article un réseau temporel par élimination croisant les modalités, capable de localiser non seulement les cadres clés, mais aussi les informations contextuelles et audio, de manière faiblement supervisée. Plus précisément, nous exploitons d’abord les relations intra- et inter-modales entre différents segments afin de sélectionner avec précision les cadres clés. Ensuite, nous éliminons itérativement ces cadres clés afin d’inciter le modèle à se concentrer sur les contextes contenant des informations complémentaires. Des expériences étendues sur trois benchmarks exigeants pour la reconnaissance des émotions dans les vidéos montrent que notre méthode se distingue favorablement des approches les plus avancées. Le code source est disponible à l’adresse suivante : https://github.com/nku-zhichengzhang/WECL.