HyperAIHyperAI
il y a 2 mois

Un réseau de neurones à attention visuelle et auditive de bout en bout pour la reconnaissance des émotions dans les vidéos générées par les utilisateurs

Sicheng Zhao; Yunsheng Ma; Yang Gu; Jufeng Yang; Tengfei Xing; Pengfei Xu; Runbo Hu; Hua Chai; Kurt Keutzer
Un réseau de neurones à attention visuelle et auditive de bout en bout pour la reconnaissance des émotions dans les vidéos générées par les utilisateurs
Résumé

La reconnaissance des émotions dans les vidéos générées par les utilisateurs joue un rôle important dans l'informatique centrée sur l'humain. Les méthodes existantes emploient principalement une pipeline traditionnelle à deux étapes peu profondes, c'est-à-dire l'extraction de caractéristiques visuelles et/ou audio et la formation de classifieurs. Dans cet article, nous proposons de reconnaître les émotions vidéo de manière end-to-end basée sur des réseaux neuronaux convolutifs (CNNs). Plus précisément, nous développons un réseau profond d'Attention Visuelle-Audio (VAANet), une nouvelle architecture qui intègre des attentions spatiales, inter-canales et temporelles dans un CNN visuel 3D et des attentions temporelles dans un CNN audio 2D. De plus, nous concevons une perte de classification spéciale, à savoir la perte d'entropie croisée cohérente en polarité (polarity-consistent cross-entropy loss), basée sur la contrainte hiérarchique polarité-émotion pour guider la génération d'attention. Des expériences approfondies menées sur les jeux de données complexes VideoEmotion-8 et Ekman-6 démontrent que le VAANet proposé surpassent les approches de pointe pour la reconnaissance des émotions vidéo. Notre code source est disponible à l'adresse suivante : https://github.com/maysonma/VAANet.

Un réseau de neurones à attention visuelle et auditive de bout en bout pour la reconnaissance des émotions dans les vidéos générées par les utilisateurs | Articles de recherche récents | HyperAI