Vocalsound : Un jeu de données pour améliorer la reconnaissance des sons vocaux humains

La reconnaissance des vocalisations humaines non linguistiques constitue une tâche importante, aux applications nombreuses, telles que la transcription automatique du son ou la surveillance de l’état de santé. Toutefois, les jeux de données existants présentent généralement un nombre relativement faible d’échantillons de sons vocaux ou des étiquettes bruitées. En conséquence, les modèles d’état de l’art pour la classification des événements audio peinent à détecter efficacement les sons vocaux humains. Afin de soutenir la recherche visant à développer des systèmes robustes et précis de reconnaissance des sons vocaux, nous avons créé le jeu de données VocalSound, composé de plus de 21 000 enregistrements collectés par le biais de crowdsourcing, incluant des rires, des soupirs, des toux, des éclaircissements de gorge, des éternuements et des reniflements, provenant de 3 365 sujets uniques. Des expériences montrent qu’en intégrant le jeu de données VocalSound comme matériel d’entraînement à un jeu de données existant, la performance de reconnaissance des sons vocaux d’un modèle peut être améliorée de manière significative, de 41,9 %. En outre, contrairement aux jeux de données antérieurs, le jeu de données VocalSound inclut des métadonnées telles que l’âge, le sexe, la langue maternelle, le pays d’origine et l’état de santé du locuteur.