Diesen Datensatz verwenden Auf Discord diskutieren

Datum

vor 7 Monaten

Organisation

Paper-URL

2509.18004

Lizenz

Apache 2.0

Tags

Text-to-Speech

Modelltraining

WenetSpeech-Chuan ist ein umfangreicher Sprachdatensatz im Sichuan-Chongqing-Dialekt, der 2025 von der Northwestern Polytechnical University in Zusammenarbeit mit Hillbeak, dem China Telecom Artificial Intelligence Research Institute und anderen Institutionen veröffentlicht wurde. Die zugehörige Forschungsarbeit trägt den Titel „WenetSpeech-Chuan: Ein umfangreiches Sichuan-Korpus mit reichhaltigen Annotationen für die Verarbeitung dialektaler Sprache". Dieser Datensatz umfasst 10.013 Stunden authentische Sprachaufnahmen aus den Dialekten Sichuan und Chongqing, darunter 3.714 Stunden stark annotierte und 6.299 Stunden schwach annotierte Daten. Die Daten decken neun reale Szenarien ab, wobei kurze Videos 52.831 TP3T ausmachen. Der Rest umfasst Unterhaltung, Live-Streaming, Hörbücher, Dokumentationen, Interviews, Nachrichten, Lesungen und Fernsehserien und bietet somit eine äußerst vielfältige und realistische Sprachverteilung. Alle Sprachaufnahmen sind mit umfangreichen Annotationsinformationen versehen, darunter Textinhalt, Konfidenzniveau, Sprachqualitätsbewertung, Geschlecht und Alter des Sprechers sowie Emotionskennzeichnungen.

Dieser Datensatz wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Falls Inhalte eine Urheberrechtsverletzung darstellen, kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Zugehörige Datensätze

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Diesen Datensatz verwenden Auf Discord diskutieren

Datum

vor 7 Monaten

Organisation

Paper-URL

2509.18004

Lizenz

Apache 2.0

Zugehörige Datensätze

Sutra 10B Vortrainings- Und Trainingsdatensatz

vor 3 Monaten

THINGS-EEG EEG-Datensatz

vor 5 Monaten

THINGS-MEG-Magnetoenzephalographie-Datensatz

vor 5 Monaten

THINGS-fMRI-Datensatz Für Funktionelle Magnetresonanztomographie

vor 5 Monaten

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

vor einem Tag

MCIF Multimodal Cross-Language Instruction Following Dataset

vor 6 Monaten

Datensatz Zur Röntgen-Schmuggelware-Erkennung

vor 6 Monaten

LongBench-Pro Long Context Comprehensive Evaluation Dataset

vor einem Tag

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

WenetSpeech-Chuan Sichuan-Chongqing Dialekt-Sprachdatensatz

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

WenetSpeech-Chuan Sichuan-Chongqing Dialekt-Sprachdatensatz

Zugehörige Datensätze

Sutra 10B Vortrainings- Und Trainingsdatensatz

THINGS-EEG EEG-Datensatz

THINGS-MEG-Magnetoenzephalographie-Datensatz

THINGS-fMRI-Datensatz Für Funktionelle Magnetresonanztomographie

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

MCIF Multimodal Cross-Language Instruction Following Dataset

Datensatz Zur Röntgen-Schmuggelware-Erkennung

LongBench-Pro Long Context Comprehensive Evaluation Dataset

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

WenetSpeech-Chuan Sichuan-Chongqing Dialekt-Sprachdatensatz

Zugehörige Datensätze

Sutra 10B Vortrainings- Und Trainingsdatensatz

THINGS-EEG EEG-Datensatz

THINGS-MEG-Magnetoenzephalographie-Datensatz

THINGS-fMRI-Datensatz Für Funktionelle Magnetresonanztomographie

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

MCIF Multimodal Cross-Language Instruction Following Dataset

Datensatz Zur Röntgen-Schmuggelware-Erkennung

LongBench-Pro Long Context Comprehensive Evaluation Dataset

KI mit KI entwickeln

HyperAI Newsletters

Zugehörige Datensätze

Sutra 10B Vortrainings- Und Trainingsdatensatz

THINGS-EEG EEG-Datensatz

THINGS-MEG-Magnetoenzephalographie-Datensatz

THINGS-fMRI-Datensatz Für Funktionelle Magnetresonanztomographie

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

MCIF Multimodal Cross-Language Instruction Following Dataset

Datensatz Zur Röntgen-Schmuggelware-Erkennung

LongBench-Pro Long Context Comprehensive Evaluation Dataset

Zugehörige Datensätze

Sutra 10B Vortrainings- Und Trainingsdatensatz

THINGS-EEG EEG-Datensatz

THINGS-MEG-Magnetoenzephalographie-Datensatz

THINGS-fMRI-Datensatz Für Funktionelle Magnetresonanztomographie

GroundingME-Datensatz Zur Evaluierung Des Verständnisses Komplexer Szenen

MCIF Multimodal Cross-Language Instruction Following Dataset

Datensatz Zur Röntgen-Schmuggelware-Erkennung

LongBench-Pro Long Context Comprehensive Evaluation Dataset