WenetSpeech Yue 広東語コーパスデータセット
WenetSpeech Yueは、西北工科大学、中国電信人工知能研究所、北京ヒルシェルテクノロジー株式会社などの機関によって2025年に公開された、広東語の音声認識(ASR)と音声合成(TTS)のための多次元注釈付き大規模音声コーパスです。関連する論文成果は「WenetSpeech-Yue: 多次元アノテーションを備えた大規模広東語音声コーパス」は、広東語分野のリソース不足を補い、質の高い広東語モデルのトレーニングと評価を促進することを目的としています。
このデータセットには、ストーリーテリング、エンターテイメント、ドラマ、文化、Vlog、解説、教育、ポッドキャスト、ニュースなど、10の分野を網羅した約21,800時間の広東語録音が含まれています。広東語の自動音声認識(ASR)および音声合成(TTS)モデルの学習と評価、そして実際の言語シナリオにおける多様な分野や話し方の処理に適しています。また、クロスドメイン汎化能力の検証と評価にも役立ちます。
データ構成:
- 文字起こしテキスト: 自動音声認識の結果。
- 信頼度スコア: テキストの信頼度や広東語ピンインの信頼度など。
- スピーカー属性: 性別、年齢、スピーカー ID。
- 音声品質指標: SNR や DNSMOS など。
- 時間注釈: 期間、文字レベルのタイムスタンプ。
- 拡張メタデータ: プログラム名、領域、リンク、レジスタ情報。