Grand ensemble de données émotionnelles brutes avec mécanisme d'agrégation

Nous présentons un nouveau jeu de données pour les tâches de reconnaissance émotionnelle dans la parole (SER), appelé Dusha. Ce corpus comprend environ 350 heures de données, plus de 300 000 enregistrements audio en langue russe accompagnés de leurs transcriptions. Il s'agit actuellement de la plus grande collection ouverte multimodale pour les tâches de SER. Les données ont été annotées via une plateforme de crowd-sourcing et comprennent deux sous-ensembles : un ensemble « joué » (acted) et un ensemble « de la vie réelle » (real-life). Le sous-ensemble « joué » présente une répartition des classes plus équilibrée que le sous-ensemble « de la vie réelle », qui est déséquilibré et composé d'extraits d'émissions audio. Le premier est donc adapté au pré-entraînement des modèles, tandis que le second est spécifiquement conçu pour le fine-tuning, l'approbation et la validation des modèles. Cet article décrit la procédure de prétraitement, l'annotation des données, ainsi qu'une série d'expériences menées avec un modèle de base, afin de démontrer les performances réelles que l'on peut atteindre avec le jeu de données Dusha.