WenetSpeech-Chuan: Ein großes Sichuan-Dialekt-Korpus mit umfassender Annotation für die Dialekt-Sprachverarbeitung
WenetSpeech-Chuan: Ein großes Sichuan-Dialekt-Korpus mit umfassender Annotation für die Dialekt-Sprachverarbeitung

Abstract
Die Knappheit an großskaligen, quelloffenen Datensätzen für Dialekte behindert die Fortschritte in der Sprachtechnologie erheblich, ein Problem, das insbesondere für die weit verbreiteten Sichuan-Dialekte des Chinesischen besonders akut ist. Um diese kritische Lücke zu schließen, stellen wir WenetSpeech-Chuan vor – einen 10.000-Stunden-Datensatz mit umfassender Annotation, der mithilfe unseres neu entwickelten Chuan-Pipelines, einem vollständigen Datenverarbeitungsframework für dialektale Sprache, erstellt wurde. Um eine strenge Evaluation zu ermöglichen und die Wirksamkeit des Korpus zu demonstrieren, veröffentlichen wir zudem hochwertige ASR- und TTS-Benchmark-Datensätze, WenetSpeech-Chuan-Eval, mit manuell überprüften Transkriptionen. Experimente zeigen, dass Modelle, die auf WenetSpeech-Chuan trainiert wurden, die derzeit besten Ergebnisse unter quelloffenen Systemen erzielen und Leistungen erreichen, die mit kommerziellen Diensten vergleichbar sind. Als der größte quelloffene Datensatz für Sichuan-Dialekte trägt WenetSpeech-Chuan nicht nur dazu bei, die Forschungshürden in der Verarbeitung dialektaler Sprache zu senken, sondern spielt auch eine entscheidende Rolle bei der Förderung von KI-Gerechtigkeit und der Minderung von Verzerrungen in Sprachtechnologien. Das Korpus, die Benchmarks, die Modelle und die dazugehörigen Rezepte sind öffentlich auf unserer Projektseite verfügbar.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.