HyperAIHyperAI

Command Palette

Search for a command to run...

Grand ensemble de données émotionnelles brutes avec mécanisme d'agrégation

Vladimir Kondratenko Artem Sokolov Nikolay Karpov Oleg Kutuzov Nikita Savushkin Fyodor Minkin

Résumé

Nous présentons un nouveau jeu de données pour les tâches de reconnaissance émotionnelle dans la parole (SER), appelé Dusha. Ce corpus comprend environ 350 heures de données, plus de 300 000 enregistrements audio en langue russe accompagnés de leurs transcriptions. Il s'agit actuellement de la plus grande collection ouverte multimodale pour les tâches de SER. Les données ont été annotées via une plateforme de crowd-sourcing et comprennent deux sous-ensembles : un ensemble « joué » (acted) et un ensemble « de la vie réelle » (real-life). Le sous-ensemble « joué » présente une répartition des classes plus équilibrée que le sous-ensemble « de la vie réelle », qui est déséquilibré et composé d'extraits d'émissions audio. Le premier est donc adapté au pré-entraînement des modèles, tandis que le second est spécifiquement conçu pour le fine-tuning, l'approbation et la validation des modèles. Cet article décrit la procédure de prétraitement, l'annotation des données, ainsi qu'une série d'expériences menées avec un modèle de base, afin de démontrer les performances réelles que l'on peut atteindre avec le jeu de données Dusha.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Grand ensemble de données émotionnelles brutes avec mécanisme d'agrégation | Articles | HyperAI