Command Palette
Search for a command to run...
Ensemble De Données De Génération Audio Non Verbale NonverbalTTS
Date
Taille
URL de l'article
Licence
Apache 2.0
*Cet ensemble de données prend en charge l'utilisation en ligne.Cliquez ici pour sauter.
NonverbalTTS est un ensemble de données de génération audio non verbale publié par VK Lab et Yandex en 2025. Les résultats de l'article associé sont «NonverbalTTS : un corpus public en anglais de vocalisations non verbales alignées sur du texte avec des annotations émotionnelles pour la synthèse vocale", qui vise à promouvoir la recherche sur la conversion expressive de texte en audio (TTS) et à soutenir les modèles permettant de générer un discours naturel contenant des émotions et des sons non verbaux.
L'ensemble de données contient 17 heures de données vocales de haute qualité provenant de 2 296 participants (601 hommes TP3T, 401 femmes TP3T), couvrant 10 types de discours non verbaux (respiration, rire, soupir, éternuement, toux, raclement de gorge, gémissement, grognement, ronflement et inhalation) et 8 catégories d'émotions (colère, dégoût, peur, bonheur, neutre, tristesse, surprise et autres).
Caractéristiques du jeu de données :
- Données multi-sources : dérivées des corpus VoxCeleb et Expresso
- Métadonnées riches : balises émotionnelles, annotations de discours non verbaux, identifiants des locuteurs, mesures de qualité audio
- Taux d'échantillonnage : 16 kHz pour l'audio de VoxCeleb, 48 kHz pour l'audio d'Expresso
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.