HyperAIHyperAI

Command Palette

Search for a command to run...

HiFiTTS-2 Großer Sprachdatensatz Mit Hoher Bandbreite

Datum

vor 3 Monaten

Organisation

NVIDIA

Paper-URL

2506.04152

Lizenz

CC BY 4.0

Treten Sie der Discord-Community bei

HiFiTTS-2 ist ein umfangreicher Sprachdatensatz mit hoher Bandbreite, der 2025 von NVIDIA veröffentlicht wurde. Die zugehörigen Ergebnisse sind „HiFiTTS-2: Ein groß angelegter Sprachdatensatz mit hoher Bandbreite“, entwickelt, um das Training und die Bewertung hochwertiger Zero-Shot-Text-to-Speech-Modelle (TTS) zu unterstützen.

Dieser Datensatz enthält Audio-Metadaten von 5.000 Sprechern, etwa 36.700 Stunden englische Sprachaufnahmen bei 22,05 kHz und 31.700 Stunden bei 44,1 kHz, sortiert nach Bandbreitenqualität und Abtastrate. Die Daten stammen aus LibriVox-Hörbüchern, die bei LibriVox zum Download bereitstehen, und werden mit 48 kHz abgetastet. Dadurch eignen sie sich für das Training hochauflösender Vocoder und nicht-autoregressiver Sprachsynthesemodelle.

Die Daten umfassen:

  • Sprachaudio (22 kHz / 44 kHz, Mono)
  • Transkript und Kapitel-/Episodenmetadaten
  • Schätzung der Sprecher- und Bandbreitenqualität, Segmentierungszeitstempel
  • Trainings-/Validierungsmanifeste und Beispielkonfigurationen

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp