HyperAIHyperAI
il y a 11 jours

Analyse empirique des réseaux de neurones superficiels par rapport aux réseaux de neurones profonds pour la classification des émotions humaines à l’aide de données audio

{and Rajiv Misra, Rohit Kumar Gupta, Anurag Choubey, Sourajit Behera, Karanjit Singh Gill, Chandresh S. Kanani}
Résumé

Les émotions humaines peuvent être identifiées de nombreuses façons, allant de l’analyse des propriétés tonales de la parole à l’expression faciale observée avant la production vocale, en passant par les gestes corporels pouvant suggérer divers états émotionnels sans aucune parole. La capacité à identifier correctement les émotions d’un individu peut faciliter la compréhension de la situation et permettre une réaction appropriée. Ce phénomène s’applique également à de nombreux systèmes de feedback utilisés dans les interactions quotidiennes avec les humains, notamment ceux déployés dans les solutions de maisons intelligentes. Le domaine de la reconnaissance automatique des émotions englobe des applications dans divers domaines de recherche, allant de la vision par ordinateur et de la physiologie à l’intelligence artificielle. Ce travail se concentre sur la classification des émotions en huit catégories : neutre, heureux, triste, en colère, calme, effrayé, dégoûté et surpris, en se basant sur la manière dont les phrases ont été prononcées, à l’aide de la base de données audiovisuelle émotionnelle de parole et de chanson de l’Université Ryerson (RAVDESS). Nous proposons une nouvelle approche pour la classification émotionnelle des conversations audio fondée sur les signaux vocaux. La classification émotionnelle basée sur les propriétés acoustiques est indépendante de toute langue parlée et peut donc être appliquée à la reconnaissance croisée des émotions entre différentes langues. L’objectif de cette contribution était de développer un système capable de reconnaître automatiquement les émotions en temps réel à partir de la parole. Plusieurs simulations ont été réalisées, permettant d’atteindre une précision maximale de 82,99 % avec notre modèle de réseau de neurones convolutif léger (shallow CNN).

Analyse empirique des réseaux de neurones superficiels par rapport aux réseaux de neurones profonds pour la classification des émotions humaines à l’aide de données audio | Articles de recherche récents | HyperAI