HyperAIHyperAI

Command Palette

Search for a command to run...

HiFiTTS-2 Großer Sprachdatensatz Mit Hoher Bandbreite

Discuss on Discord

Date

vor 4 Monaten

Organization

NVIDIA

Paper URL

2506.04152

License

CC BY 4.0

HiFiTTS-2 ist ein umfangreicher Sprachdatensatz mit hoher Bandbreite, der 2025 von NVIDIA veröffentlicht wurde. Die zugehörigen Ergebnisse sind „HiFiTTS-2: Ein groß angelegter Sprachdatensatz mit hoher Bandbreite“, entwickelt, um das Training und die Bewertung hochwertiger Zero-Shot-Text-to-Speech-Modelle (TTS) zu unterstützen.

Dieser Datensatz enthält Audio-Metadaten von 5.000 Sprechern, etwa 36.700 Stunden englische Sprachaufnahmen bei 22,05 kHz und 31.700 Stunden bei 44,1 kHz, sortiert nach Bandbreitenqualität und Abtastrate. Die Daten stammen aus LibriVox-Hörbüchern, die bei LibriVox zum Download bereitstehen, und werden mit 48 kHz abgetastet. Dadurch eignen sie sich für das Training hochauflösender Vocoder und nicht-autoregressiver Sprachsynthesemodelle.

Die Daten umfassen:

  • Sprachaudio (22 kHz / 44 kHz, Mono)
  • Transkript und Kapitel-/Episodenmetadaten
  • Schätzung der Sprecher- und Bandbreitenqualität, Segmentierungszeitstempel
  • Trainings-/Validierungsmanifeste und Beispielkonfigurationen

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp