HyperAIHyperAI

Command Palette

Search for a command to run...

Vocalsound : Un jeu de données pour améliorer la reconnaissance des sons vocaux humains

Yuan Gong Jin Yu James Glass

Résumé

La reconnaissance des vocalisations humaines non linguistiques constitue une tâche importante, aux applications nombreuses, telles que la transcription automatique du son ou la surveillance de l’état de santé. Toutefois, les jeux de données existants présentent généralement un nombre relativement faible d’échantillons de sons vocaux ou des étiquettes bruitées. En conséquence, les modèles d’état de l’art pour la classification des événements audio peinent à détecter efficacement les sons vocaux humains. Afin de soutenir la recherche visant à développer des systèmes robustes et précis de reconnaissance des sons vocaux, nous avons créé le jeu de données VocalSound, composé de plus de 21 000 enregistrements collectés par le biais de crowdsourcing, incluant des rires, des soupirs, des toux, des éclaircissements de gorge, des éternuements et des reniflements, provenant de 3 365 sujets uniques. Des expériences montrent qu’en intégrant le jeu de données VocalSound comme matériel d’entraînement à un jeu de données existant, la performance de reconnaissance des sons vocaux d’un modèle peut être améliorée de manière significative, de 41,9 %. En outre, contrairement aux jeux de données antérieurs, le jeu de données VocalSound inclut des métadonnées telles que l’âge, le sexe, la langue maternelle, le pays d’origine et l’état de santé du locuteur.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp