vor 2 Monaten

Yuhang Dai Ziyu Zhang Shuai Wang Longhao Li Zhao Guo Tianlun Zuo Shuiyuan Wang Hongfei Xue Chengyou Wang Qing Wang

Zusammenfassung

Die Knappheit an großskaligen, quelloffenen Datensätzen für Dialekte behindert die Fortschritte in der Sprachtechnologie erheblich, ein Problem, das insbesondere für die weit verbreiteten Sichuan-Dialekte des Chinesischen besonders akut ist. Um diese kritische Lücke zu schließen, stellen wir WenetSpeech-Chuan vor – einen 10.000-Stunden-Datensatz mit umfassender Annotation, der mithilfe unseres neu entwickelten Chuan-Pipelines, einem vollständigen Datenverarbeitungsframework für dialektale Sprache, erstellt wurde. Um eine strenge Evaluation zu ermöglichen und die Wirksamkeit des Korpus zu demonstrieren, veröffentlichen wir zudem hochwertige ASR- und TTS-Benchmark-Datensätze, WenetSpeech-Chuan-Eval, mit manuell überprüften Transkriptionen. Experimente zeigen, dass Modelle, die auf WenetSpeech-Chuan trainiert wurden, die derzeit besten Ergebnisse unter quelloffenen Systemen erzielen und Leistungen erreichen, die mit kommerziellen Diensten vergleichbar sind. Als der größte quelloffene Datensatz für Sichuan-Dialekte trägt WenetSpeech-Chuan nicht nur dazu bei, die Forschungshürden in der Verarbeitung dialektaler Sprache zu senken, sondern spielt auch eine entscheidende Rolle bei der Förderung von KI-Gerechtigkeit und der Minderung von Verzerrungen in Sprachtechnologien. Das Korpus, die Benchmarks, die Modelle und die dazugehörigen Rezepte sind öffentlich auf unserer Projektseite verfügbar.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 2 Monaten

Audio- Und Sprachverarbeitung

Yuhang Dai Ziyu Zhang Shuai Wang Longhao Li Zhao Guo Tianlun Zuo Shuiyuan Wang Hongfei Xue Chengyou Wang Qing Wang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 2 Monaten

Audio- Und Sprachverarbeitung

Yuhang Dai Ziyu Zhang Shuai Wang Longhao Li Zhao Guo Tianlun Zuo Shuiyuan Wang Hongfei Xue Chengyou Wang Qing Wang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

WenetSpeech-Chuan: Ein großes Sichuan-Dialekt-Korpus mit umfassender Annotation für die Dialekt-Sprachverarbeitung

Yuhang Dai Ziyu Zhang Shuai Wang Longhao Li Zhao Guo Tianlun Zuo Shuiyuan Wang Hongfei Xue Chengyou Wang Qing Wang6 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

WenetSpeech-Chuan: Ein großes Sichuan-Dialekt-Korpus mit umfassender Annotation für die Dialekt-Sprachverarbeitung

Yuhang Dai Ziyu Zhang Shuai Wang Longhao Li Zhao Guo Tianlun Zuo Shuiyuan Wang Hongfei Xue Chengyou Wang Qing Wang6 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

WenetSpeech-Chuan: Ein großes Sichuan-Dialekt-Korpus mit umfassender Annotation für die Dialekt-Sprachverarbeitung

Yuhang Dai Ziyu Zhang Shuai Wang Longhao Li Zhao Guo Tianlun Zuo Shuiyuan Wang Hongfei Xue Chengyou Wang Qing Wang6 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Yuhang Dai Ziyu Zhang Shuai Wang Longhao Li Zhao Guo Tianlun Zuo Shuiyuan Wang Hongfei Xue Chengyou Wang Qing Wang

Yuhang Dai Ziyu Zhang Shuai Wang Longhao Li Zhao Guo Tianlun Zuo Shuiyuan Wang Hongfei Xue Chengyou Wang Qing Wang

Yuhang Dai Ziyu Zhang Shuai Wang Longhao Li Zhao Guo Tianlun Zuo Shuiyuan Wang Hongfei Xue Chengyou Wang Qing Wang