Date

7 months ago

Organization

Paper URL

2509.18004

License

Apache 2.0

Tags

Text-to-Speech

Model Training

WenetSpeech-Chuan is a large-scale Sichuan-Chongqing dialect speech dataset released in 2025 by Northwestern Polytechnical University in collaboration with Hillbeak, China Telecom Artificial Intelligence Research Institute, and other institutions. The related research paper is titled "WenetSpeech-Chuan: A Large-Scale Sichuanese Corpus with Rich Annotation for Dialectal Speech Processing". This dataset contains 10,013 hours of authentic Sichuan and Chongqing dialect speech, including 3,714 hours of strongly labeled data and 6,299 hours of weakly labeled data. The data covers nine real-world scenarios, with short videos accounting for 52.831 TP3T, and the remainder including entertainment, live streaming, audiobooks, documentaries, interviews, news, reading, and TV dramas, presenting a highly diverse and realistic speech distribution. All speech is accompanied by rich annotation information, such as text content, confidence level, voice quality score, speaker's gender and age, and emotion tags.

This dataset is contributed by community users and is intended for educational and informational purposes only. If any content involves copyright infringement, please contact us at [email protected] for prompt review and removal.

Related Datasets

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding

Ready-to-use GPUs

Best Pricing

Get Started View Pricing

HyperAI Newsletters

Subscribe to our latest updates

We will deliver the latest updates of the week to your inbox at nine o'clock every Monday morning

HyperAI

Use this Dataset Discuss on Discord

Date

7 months ago

Organization

Paper URL

2509.18004

License

Apache 2.0

Related Datasets

Sutra 10B Pretraining Teaching and Training Dataset

3 months ago

THINGS-EEG EEG Dataset

5 months ago

THINGS-MEG Magnetoencephalography Dataset

5 months ago

THINGS-fMRI Functional Magnetic Resonance Imaging Dataset

5 months ago

GroundingME Complex Scene Understanding Evaluation Dataset

a day ago

MCIF Multimodal Cross-Language Instruction Following Dataset

6 months ago

X-ray Contraband Detection Dataset

6 months ago

LongBench-Pro Long Context Comprehensive Evaluation Dataset

a day ago

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding

Ready-to-use GPUs

Best Pricing

Get Started View Pricing

HyperAI Newsletters

Subscribe to our latest updates

We will deliver the latest updates of the week to your inbox at nine o'clock every Monday morning

Command Palette

WenetSpeech-Chuan Sichuan-Chongqing Dialect Speech Dataset

Build AI with AI

HyperAI Newsletters

Command Palette

WenetSpeech-Chuan Sichuan-Chongqing Dialect Speech Dataset

Related Datasets

Sutra 10B Pretraining Teaching and Training Dataset

THINGS-EEG EEG Dataset

THINGS-MEG Magnetoencephalography Dataset

THINGS-fMRI Functional Magnetic Resonance Imaging Dataset

GroundingME Complex Scene Understanding Evaluation Dataset

MCIF Multimodal Cross-Language Instruction Following Dataset

X-ray Contraband Detection Dataset

LongBench-Pro Long Context Comprehensive Evaluation Dataset

Build AI with AI

HyperAI Newsletters

Command Palette

WenetSpeech-Chuan Sichuan-Chongqing Dialect Speech Dataset

Related Datasets

Sutra 10B Pretraining Teaching and Training Dataset

THINGS-EEG EEG Dataset

THINGS-MEG Magnetoencephalography Dataset

THINGS-fMRI Functional Magnetic Resonance Imaging Dataset

GroundingME Complex Scene Understanding Evaluation Dataset

MCIF Multimodal Cross-Language Instruction Following Dataset

X-ray Contraband Detection Dataset

LongBench-Pro Long Context Comprehensive Evaluation Dataset

Build AI with AI

HyperAI Newsletters

Related Datasets

Sutra 10B Pretraining Teaching and Training Dataset

THINGS-EEG EEG Dataset

THINGS-MEG Magnetoencephalography Dataset

THINGS-fMRI Functional Magnetic Resonance Imaging Dataset

GroundingME Complex Scene Understanding Evaluation Dataset

MCIF Multimodal Cross-Language Instruction Following Dataset

X-ray Contraband Detection Dataset

LongBench-Pro Long Context Comprehensive Evaluation Dataset

Related Datasets

Sutra 10B Pretraining Teaching and Training Dataset

THINGS-EEG EEG Dataset

THINGS-MEG Magnetoencephalography Dataset

THINGS-fMRI Functional Magnetic Resonance Imaging Dataset

GroundingME Complex Scene Understanding Evaluation Dataset

MCIF Multimodal Cross-Language Instruction Following Dataset

X-ray Contraband Detection Dataset

LongBench-Pro Long Context Comprehensive Evaluation Dataset