LSSED : un jeu de données à grande échelle et une référence pour la reconnaissance émotionnelle de la parole

La reconnaissance émotionnelle à partir de la parole constitue une contribution essentielle à la prochaine génération d’interactions homme-machine (IHM). Toutefois, les bases de données actuelles à petite échelle limitent le développement de recherches dans ce domaine. Dans cet article, nous présentons LSSED, un ensemble de données massives et exigeant sur la reconnaissance émotionnelle à partir de la parole en anglais, constitué de données collectées auprès de 820 sujets afin de simuler une répartition réelle du monde réel. Par ailleurs, nous mettons à disposition plusieurs modèles pré-entraînés basés sur LSSED, qui non seulement favorisent le progrès de la reconnaissance émotionnelle à partir de la parole, mais peuvent également être transférés à des tâches ultérieures connexes, telles que l’analyse de la santé mentale, où la collecte de données est particulièrement difficile. Enfin, nos expérimentations démontrent l’importance des jeux de données à grande échelle ainsi que l’efficacité des modèles pré-entraînés. L’ensemble de données sera mis à disposition sur https://github.com/tobefans/LSSED.