HyperAIHyperAI

Command Palette

Search for a command to run...

HiFiTTS-2: Ein großflächiges Sprachdatensatz mit hoher Bandbreite

Ryan Langman Xuesong Yang Paarth Neekhara Shehzeen Hussain et al

Zusammenfassung

Diese Arbeit stellt HiFiTTS-2 vor, ein großskaliges Sprachdatensatz, der für die hochbandbreitige Sprachsynthese entwickelt wurde. Der Datensatz stammt aus den Audiobüchern von LibriVox und umfasst etwa 36,7 Tsd. Stunden englischer Sprache für die Trainingsfrequenz von 22,05 kHz sowie 31,7 Tsd. Stunden für 44,1 kHz. Wir präsentieren unseren Datenverarbeitungs-Pipeline, die Bandbreitenabschätzung, Segmentierung, Textvorbereitung sowie die Erkennung mehrerer Sprecher umfasst. Der Datensatz wird durch detaillierte Sprechereinheiten- und Audiobuch-Metadaten ergänzt, die von unserer Pipeline generiert wurden und Forschern ermöglichen, Qualitätsfilter anzuwenden, um den Datensatz an verschiedene Anwendungsfälle anzupassen. Experimentelle Ergebnisse zeigen, dass unsere Datenpipeline und der daraus resultierende Datensatz die Entwicklung hochwertiger, zero-shot-Text-to-Speech-(TTS)-Modelle bei hoher Bandbreite unterstützen können.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
HiFiTTS-2: Ein großflächiges Sprachdatensatz mit hoher Bandbreite | Paper | HyperAI