WenetSpeech: 認知音声用10000時間以上の多領域中国語コーパス

本論文では、WenetSpeechという多領域の中国語コーパスを紹介します。このコーパスは、10000時間以上の高品質ラベル付き音声、2400時間以上の弱ラベル付き音声、および約10000時間の無ラベル音声から構成され、合計22400時間を超えます。データはYouTubeとPodcastから収集され、様々な話し方、状況、領域、トピック、ノイズ条件をカバーしています。YouTubeデータに対しては、対応するビデオキャプションに基づく光学的文字認識(OCR)手法を用いて音声/テキスト分割候補を生成しました。一方、Podcastデータに対しては、高品質な自動音声認識(ASR)転写システムを使用して音声/テキストペア候補を生成しました。さらに、これらの候補を検証およびフィルタリングするために新しいエンドツーエンドのラベル誤り検出アプローチを提案しています。また、評価のためにWenetSpeechとともに3つの手動でラベル付けされた高品質テストセットも提供しています。これらは以下の通りです:訓練時のクロスバリデーション目的のDevセット、インターネットから収集されたマッチングテスト用のTest_Netセット、そして実際の会議録音から取得されたより困難なミスマッチングテスト用のTest_Meetingセットです。WenetSpeechを使用して訓練されたベースラインシステムは、Kaldi, ESPnet, WeNetという3つの主要な音声認識ツールキット向けに提供されており、3つのテストセットでの認識結果もベンチマークとして提供されています。当該研究チームが知る限りにおいて、WenetSpeechは現在まで公開されている中で最も大きな中国語音声コーパスであり、転写付きであることが特徴です。これにより生産レベルの音声認識に関する研究が促進されます。