Command Palette
Search for a command to run...
Ensemble De Données De Génération Audio Non Verbale NonverbalTTS
Date
Size
Paper URL
License
Apache 2.0
NonverbalTTS est un ensemble de données de génération audio non verbale publié par VK Lab et Yandex en 2025. Les résultats de l'article associé sont «NonverbalTTS : un corpus public en anglais de vocalisations non verbales alignées sur du texte avec des annotations émotionnelles pour la synthèse vocale", qui vise à promouvoir la recherche sur la conversion expressive de texte en audio (TTS) et à soutenir les modèles permettant de générer un discours naturel contenant des émotions et des sons non verbaux.
L'ensemble de données contient 17 heures de données vocales de haute qualité provenant de 2 296 participants (601 hommes TP3T, 401 femmes TP3T), couvrant 10 types de discours non verbaux (respiration, rire, soupir, éternuement, toux, raclement de gorge, gémissement, grognement, ronflement et inhalation) et 8 catégories d'émotions (colère, dégoût, peur, bonheur, neutre, tristesse, surprise et autres).
Caractéristiques du jeu de données :
- Données multi-sources : dérivées des corpus VoxCeleb et Expresso
- Métadonnées riches : balises émotionnelles, annotations de discours non verbaux, identifiants des locuteurs, mesures de qualité audio
- Taux d'échantillonnage : 16 kHz pour l'audio de VoxCeleb, 48 kHz pour l'audio d'Expresso
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.