Command Palette
Search for a command to run...
HiFiTTS-2 Großer Sprachdatensatz Mit Hoher Bandbreite
HiFiTTS-2 ist ein umfangreicher Sprachdatensatz mit hoher Bandbreite, der 2025 von NVIDIA veröffentlicht wurde. Die zugehörigen Ergebnisse sind „HiFiTTS-2: Ein groß angelegter Sprachdatensatz mit hoher Bandbreite“, entwickelt, um das Training und die Bewertung hochwertiger Zero-Shot-Text-to-Speech-Modelle (TTS) zu unterstützen.
Dieser Datensatz enthält Audio-Metadaten von 5.000 Sprechern, etwa 36.700 Stunden englische Sprachaufnahmen bei 22,05 kHz und 31.700 Stunden bei 44,1 kHz, sortiert nach Bandbreitenqualität und Abtastrate. Die Daten stammen aus LibriVox-Hörbüchern, die bei LibriVox zum Download bereitstehen, und werden mit 48 kHz abgetastet. Dadurch eignen sie sich für das Training hochauflösender Vocoder und nicht-autoregressiver Sprachsynthesemodelle.
Die Daten umfassen:
- Sprachaudio (22 kHz / 44 kHz, Mono)
- Transkript und Kapitel-/Episodenmetadaten
- Schätzung der Sprecher- und Bandbreitenqualität, Segmentierungszeitstempel
- Trainings-/Validierungsmanifeste und Beispielkonfigurationen
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.