Command Palette
Search for a command to run...
NonverbalTTS-Datensatz Zur Nonverbalen Audiogenerierung
Date
Size
Paper URL
License
Apache 2.0
NonverbalTTS ist ein Datensatz zur nonverbalen Audiogenerierung, der 2025 von VK Lab und Yandex veröffentlicht wurde. Die zugehörigen Ergebnisse des Papiers sind „NonverbalTTS: Ein öffentliches englisches Korpus textorientierter nonverbaler Vokalisierungen mit Emotionsannotationen für Text-to-Speech“, dessen Ziel es ist, die Forschung im Bereich ausdrucksstarker Text-to-Audio (TTS) zu fördern und Modelle zur Erzeugung natürlicher Sprache zu unterstützen, die Emotionen und nonverbale Laute enthält.
Der Datensatz enthält 17 Stunden hochwertige Sprachdaten von 2.296 Teilnehmern (601 TP3T-Männer, 401 TP3T-Frauen) und deckt 10 nonverbale Sprachtypen (Atmen, Lachen, Seufzen, Niesen, Husten, Räuspern, Stöhnen, Grunzen, Schnarchen und Einatmen) und 8 Emotionskategorien (Wut, Ekel, Angst, Glück, Neutralität, Traurigkeit, Überraschung und Sonstiges) ab.
Datensatzfunktionen:
- Daten aus mehreren Quellen: abgeleitet aus den Korpora von VoxCeleb und Expresso
- Umfangreiche Metadaten: Emotions-Tags, nonverbale Sprachanmerkungen, Sprecher-IDs, Audioqualitätsmetriken
- Abtastrate: 16 kHz für Audio von VoxCeleb, 48 kHz für Audio von Expresso
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.