Command Palette
Search for a command to run...
HiFiTTS-2 Großer Sprachdatensatz Mit Hoher Bandbreite
Datum
Paper-URL
Lizenz
CC BY 4.0
HiFiTTS-2 ist ein umfangreicher Sprachdatensatz mit hoher Bandbreite, der 2025 von NVIDIA veröffentlicht wurde. Die zugehörigen Ergebnisse sind „HiFiTTS-2: Ein groß angelegter Sprachdatensatz mit hoher Bandbreite“, entwickelt, um das Training und die Bewertung hochwertiger Zero-Shot-Text-to-Speech-Modelle (TTS) zu unterstützen.
Dieser Datensatz enthält Audio-Metadaten von 5.000 Sprechern, etwa 36.700 Stunden englische Sprachaufnahmen bei 22,05 kHz und 31.700 Stunden bei 44,1 kHz, sortiert nach Bandbreitenqualität und Abtastrate. Die Daten stammen aus LibriVox-Hörbüchern, die bei LibriVox zum Download bereitstehen, und werden mit 48 kHz abgetastet. Dadurch eignen sie sich für das Training hochauflösender Vocoder und nicht-autoregressiver Sprachsynthesemodelle.
Die Daten umfassen:
- Sprachaudio (22 kHz / 44 kHz, Mono)
- Transkript und Kapitel-/Episodenmetadaten
- Schätzung der Sprecher- und Bandbreitenqualität, Segmentierungszeitstempel
- Trainings-/Validierungsmanifeste und Beispielkonfigurationen
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.