WenetSpeech-Yue: Ein großes kantonesisches Sprachkorpus mit mehrdimensionaler Annotation

Die Entwicklung von Sprachverstehen und -generierung wurde durch die Verfügbarkeit großer, hochwertiger Sprachdatensätze erheblich beschleunigt. Unter diesen Aufgaben gelten ASR (Automatic Speech Recognition) und TTS (Text-to-Speech) als die etabliertesten und grundlegendsten Aufgaben. Für Kantonese (Yue-Chinesisch), die Sprache von weltweit etwa 84,9 Millionen Muttersprachlern, haben jedoch begrenzte annotierte Ressourcen den Fortschritt behindert und zu suboptimalen Leistungen bei ASR und TTS geführt. Um dieser Herausforderung zu begegnen, stellen wir WenetSpeech-Pipe vor – eine integrierte Pipeline zur Erstellung großer Sprachkorpusse mit mehrdimensionaler Annotation, speziell für Sprachverstehen und -generierung. Die Pipeline besteht aus sechs Modulen: Audio-Sammlung, Speaker-Attribut-Annotation, Sprachqualitäts-Annotation, Automatisches Spracherkennungssystem, Text-Nachbearbeitung und Erkennungsergebnis-Voting. Diese ermöglichen eine reichhaltige und hochwertige Annotation. Auf Basis dieser Pipeline veröffentlichen wir WenetSpeech-Yue, das erste große Kantonese-Sprachkorpus mit mehrdimensionaler Annotation für ASR und TTS. Es umfasst 21.800 Stunden in zehn verschiedenen Domänen und enthält Annotationen wie ASR-Transkriptionen, Text-Vertrauenswerte, Sprecheridentität, Alter, Geschlecht sowie Sprachqualitätsscores und weitere Metadaten. Zusätzlich veröffentlichen wir WSYue-eval, einen umfassenden Benchmark für Kantonese mit zwei Komponenten: WSYue-ASR-eval, eine manuell annotierte Datensammlung zur Bewertung der ASR-Leistung bei kurzen und langen Äußerungen, Code-Switching sowie unter vielfältigen akustischen Bedingungen, sowie WSYue-TTS-eval mit Basis- und Coverage-Untergruppen zur Standard- und Generalisierungstestung. Experimentelle Ergebnisse zeigen, dass Modelle, die auf WenetSpeech-Yue trainiert wurden, Ergebnisse erzielen, die mit den besten bisherigen (SOTA) Kantonese-ASR- und TTS-Systemen – einschließlich kommerzieller und auf großen Sprachmodellen basierender Ansätze – konkurrieren und damit den Wert unseres Datensatzes und der Pipeline unterstreichen.