Command Palette
Search for a command to run...
WenetSpeech-Chuan: Ein großes Sichuan-Dialekt-Korpus mit umfassender Annotation für die Dialekt-Sprachverarbeitung
WenetSpeech-Chuan: Ein großes Sichuan-Dialekt-Korpus mit umfassender Annotation für die Dialekt-Sprachverarbeitung
Zusammenfassung
Die Knappheit an großskaligen, quelloffenen Datensätzen für Dialekte behindert die Fortschritte in der Sprachtechnologie erheblich, ein Problem, das insbesondere für die weit verbreiteten Sichuan-Dialekte des Chinesischen besonders akut ist. Um diese kritische Lücke zu schließen, stellen wir WenetSpeech-Chuan vor – einen 10.000-Stunden-Datensatz mit umfassender Annotation, der mithilfe unseres neu entwickelten Chuan-Pipelines, einem vollständigen Datenverarbeitungsframework für dialektale Sprache, erstellt wurde. Um eine strenge Evaluation zu ermöglichen und die Wirksamkeit des Korpus zu demonstrieren, veröffentlichen wir zudem hochwertige ASR- und TTS-Benchmark-Datensätze, WenetSpeech-Chuan-Eval, mit manuell überprüften Transkriptionen. Experimente zeigen, dass Modelle, die auf WenetSpeech-Chuan trainiert wurden, die derzeit besten Ergebnisse unter quelloffenen Systemen erzielen und Leistungen erreichen, die mit kommerziellen Diensten vergleichbar sind. Als der größte quelloffene Datensatz für Sichuan-Dialekte trägt WenetSpeech-Chuan nicht nur dazu bei, die Forschungshürden in der Verarbeitung dialektaler Sprache zu senken, sondern spielt auch eine entscheidende Rolle bei der Förderung von KI-Gerechtigkeit und der Minderung von Verzerrungen in Sprachtechnologien. Das Korpus, die Benchmarks, die Modelle und die dazugehörigen Rezepte sind öffentlich auf unserer Projektseite verfügbar.