Command Palette
Search for a command to run...
EmoNet-Voice : Une Benchmark Fine-Grainée Vérifiée par des Experts pour la Détection des Émotions dans la Parole
Christoph Schuhmann Robert Kaczmarczyk Gollam Rabby Felix Friedrich Maurice Kraus Kourosh Nadi Huu Nguyen Kristian Kersting S\u00f6ren Auer

Résumé
L'avancement des modèles de synthèse vocale et de génération audio nécessite des benchmarks robustes pour évaluer les capacités de compréhension émotionnelle des systèmes d'IA. Les ensembles de données actuels en reconnaissance émotionnelle dans la parole (SER) présentent souvent des limitations en termes de granularité émotionnelle, de préoccupations liées à la vie privée ou d'une dépendance aux interprétations jouées. Cet article présente EmoNet-Voice, une nouvelle ressource pour la détection des émotions dans la parole, qui comprend EmoNet-Voice Big, un ensemble de données d'apprentissage préalable à grande échelle (comprenant plus de 4 500 heures de parole sur 11 voix, 40 émotions et 4 langues), et EmoNet-Voice Bench, un nouveau jeu de données de référence avec des annotations réalisées par des experts humains. EmoNet-Voice est conçu pour évaluer les modèles SER sur un spectre finement gradué de 40 catégories d'émotions avec différents niveaux d'intensité. En utilisant des techniques avancées de génération vocale, nous avons compilé des extraits audio synthétiques simulant des acteurs interprétant des scènes conçues pour susciter des émotions spécifiques. De manière cruciale, nous avons effectué une validation rigoureuse par des experts en psychologie qui ont attribué des labels d'intensité perçue. Cette approche synthétique et préservant la vie privée permet l'inclusion d'états émotionnels sensibles souvent absents dans les ensembles de données existants. Enfin, nous introduisons les modèles Empathic Insight Voice qui fixent un nouveau standard en reconnaissance émotionnelle dans la parole avec une forte concordance avec les experts humains. Nos évaluations sur le paysage actuel des modèles révèlent des résultats précieux, tels que les émotions à haute activation comme la colère étant beaucoup plus faciles à détecter que les états à faible activation comme la concentration.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.