HiFiTTS-2: Ein großflächiges Sprachdatensatz mit hoher Bandbreite

Diese Arbeit stellt HiFiTTS-2 vor, ein großskaliges Sprachdatensatz, der für die hochbandbreitige Sprachsynthese entwickelt wurde. Der Datensatz stammt aus den Audiobüchern von LibriVox und umfasst etwa 36,7 Tsd. Stunden englischer Sprache für die Trainingsfrequenz von 22,05 kHz sowie 31,7 Tsd. Stunden für 44,1 kHz. Wir präsentieren unseren Datenverarbeitungs-Pipeline, die Bandbreitenabschätzung, Segmentierung, Textvorbereitung sowie die Erkennung mehrerer Sprecher umfasst. Der Datensatz wird durch detaillierte Sprechereinheiten- und Audiobuch-Metadaten ergänzt, die von unserer Pipeline generiert wurden und Forschern ermöglichen, Qualitätsfilter anzuwenden, um den Datensatz an verschiedene Anwendungsfälle anzupassen. Experimentelle Ergebnisse zeigen, dass unsere Datenpipeline und der daraus resultierende Datensatz die Entwicklung hochwertiger, zero-shot-Text-to-Speech-(TTS)-Modelle bei hoher Bandbreite unterstützen können.