WenetSpeech-Yue:多次元アノテーションを備えた大規模広東語音声コーパス

音声理解および音声生成の発展は、大規模かつ高品質な音声データセットの可用性によって著しく加速されてきた。このようなデータセットの中でも、自動音声認識(ASR)および音声合成(TTS)は、最も確立され、基盤的なタスクとされている。しかし、世界で約8,490万人の母語話者がいる広東語(粵語)については、限られたアノテーション付きリソースが進展を阻害し、結果としてASRおよびTTSの性能が最適化されていない状況にあった。この課題に対処するため、本研究では、音声理解および音声生成に特化した多次元アノテーションを備えた大規模音声コーパス構築を目的とした統合パイプライン「WenetSpeech-Pipe」を提案する。このパイプラインは、音声収集、話者属性アノテーション、音声品質アノテーション、自動音声認識、テキスト後処理、認識結果投票の6つのモジュールから構成されており、豊富かつ高品質なアノテーションを実現する。本パイプラインに基づき、我々は広東語用の初の大規模音声コーパス「WenetSpeech-Yue」を公開する。このコーパスは、10の分野にまたがる合計21,800時間の音声データをカバーし、ASRの音声転写、テキスト信頼度、話者ID、年齢、性別、音声品質スコアなど、多様なアノテーションを含んでいる。さらに、広東語専用の包括的なベンチマーク「WSYue-eval」も公開する。これは、2つのコンポーネントから構成される:(1)WSYue-ASR-evalは、短い・長い発話、コードスイッチ、多様な音響環境を含むASR評価に用いる手動アノテーションデータセットであり、(2)WSYue-TTS-evalは、標準評価用のベースセットと一般化能力評価用のカバレッジセットを備える。実験結果から、WenetSpeech-Yueで学習されたモデルは、商業モデルおよび大規模言語モデル(LLM)に基づく最新のSOTA(状態の最良)広東語ASRおよびTTSシステムと比較しても競争力のある性能を達成した。これは、本研究で提供するデータセットおよびパイプラインの価値を強く示している。