2ヶ月前

音声および音声処理

データセット

AIインフラストラクチャ

オーディオ

Yuhang Dai Ziyu Zhang Shuai Wang Longhao Li Zhao Guo Tianlun Zuo Shuiyuan Wang Hongfei Xue Chengyou Wang Qing Wang

概要

中国語の四川方言のように広く話されている方言については、大規模かつオープンソースのデータが極めて不足しており、これにより音声技術の進展が著しく妨げられている。この重要な課題に対応するため、我々は新しい「四川パイプライン（Chuan-Pipeline）」を用いて構築された、1万時間に及ぶ豊富なアノテーションを備えたコーパス「WenetSpeech-Chuan」を紹介する。このコーパスの有効性を厳密に評価できるようにするため、手動で検証された発話文を備えた高品質なASR（音声認識）およびTTS（音声合成）ベンチマーク「WenetSpeech-Chuan-Eval」も同時に公開する。実験の結果、WenetSpeech-Chuanで学習されたモデルは、オープンソースシステムの中で最先端の性能を達成し、商用サービスと比較可能な結果を示した。WenetSpeech-Chuanは、四川方言に対する最大規模のオープンソースコーパスとして、方言音声処理研究への参入障壁を低減するだけでなく、音声技術におけるAIの公平性向上とバイアス低減にも重要な役割を果たす。本コーパス、ベンチマーク、モデルおよび関連資料は、プロジェクトページにて公開されている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

2ヶ月前

音声および音声処理

データセット

AIインフラストラクチャ

オーディオ

Yuhang Dai Ziyu Zhang Shuai Wang Longhao Li Zhao Guo Tianlun Zuo Shuiyuan Wang Hongfei Xue Chengyou Wang Qing Wang

概要

中国語の四川方言のように広く話されている方言については、大規模かつオープンソースのデータが極めて不足しており、これにより音声技術の進展が著しく妨げられている。この重要な課題に対応するため、我々は新しい「四川パイプライン（Chuan-Pipeline）」を用いて構築された、1万時間に及ぶ豊富なアノテーションを備えたコーパス「WenetSpeech-Chuan」を紹介する。このコーパスの有効性を厳密に評価できるようにするため、手動で検証された発話文を備えた高品質なASR（音声認識）およびTTS（音声合成）ベンチマーク「WenetSpeech-Chuan-Eval」も同時に公開する。実験の結果、WenetSpeech-Chuanで学習されたモデルは、オープンソースシステムの中で最先端の性能を達成し、商用サービスと比較可能な結果を示した。WenetSpeech-Chuanは、四川方言に対する最大規模のオープンソースコーパスとして、方言音声処理研究への参入障壁を低減するだけでなく、音声技術におけるAIの公平性向上とバイアス低減にも重要な役割を果たす。本コーパス、ベンチマーク、モデルおよび関連資料は、プロジェクトページにて公開されている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています