Command Palette
Search for a command to run...
NonverbalTTS-Datensatz Zur Nonverbalen Audiogenerierung
Datum
Größe
Paper-URL
Lizenz
Apache 2.0
*Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.
NonverbalTTS ist ein Datensatz zur nonverbalen Audiogenerierung, der 2025 von VK Lab und Yandex veröffentlicht wurde. Die zugehörigen Ergebnisse des Papiers sind „NonverbalTTS: Ein öffentliches englisches Korpus textorientierter nonverbaler Vokalisierungen mit Emotionsannotationen für Text-to-Speech“, dessen Ziel es ist, die Forschung im Bereich ausdrucksstarker Text-to-Audio (TTS) zu fördern und Modelle zur Erzeugung natürlicher Sprache zu unterstützen, die Emotionen und nonverbale Laute enthält.
Der Datensatz enthält 17 Stunden hochwertige Sprachdaten von 2.296 Teilnehmern (601 TP3T-Männer, 401 TP3T-Frauen) und deckt 10 nonverbale Sprachtypen (Atmen, Lachen, Seufzen, Niesen, Husten, Räuspern, Stöhnen, Grunzen, Schnarchen und Einatmen) und 8 Emotionskategorien (Wut, Ekel, Angst, Glück, Neutralität, Traurigkeit, Überraschung und Sonstiges) ab.
Datensatzfunktionen:
- Daten aus mehreren Quellen: abgeleitet aus den Korpora von VoxCeleb und Expresso
- Umfangreiche Metadaten: Emotions-Tags, nonverbale Sprachanmerkungen, Sprecher-IDs, Audioqualitätsmetriken
- Abtastrate: 16 kHz für Audio von VoxCeleb, 48 kHz für Audio von Expresso
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.