17日前
GigaSpeech:10,000時間分の音声を収録した進化型で多領域対応のASRコーパス
Guoguo Chen, Shuzhou Chai, Guanbo Wang, Jiayu Du, Wei-Qiang Zhang, Chao Weng, Dan Su, Daniel Povey, Jan Trmal, Junbo Zhang, Mingjie Jin, Sanjeev Khudanpur, Shinji Watanabe, Shuaijiang Zhao, Wei Zou, Xiangang Li, Xuchen Yao, Yongqing Wang, Yujun Wang, Zhao You, Zhiyong Yan

要約
本稿では、教師あり学習に適した高品質なラベル付き音声データ10,000時間、および半教師あり・非教師あり学習に適した合計40,000時間の音声データを含む、進化型で多領域にわたる英語音声認識コーパス「GigaSpeech」を紹介する。まず、アーティスト、科学、スポーツなど多様なトピックをカバーする、読み上げスタイルおよび自然な会話スタイルの音声データを、オーディオブック、パッドキャスト、YouTubeなどから約40,000時間収集した。その後、音声認識学習に適した文単位のセグメントを生成し、低品質な転写を除外するため、新規の強制同期(forced alignment)とセグメンテーションパイプラインを提案した。システムの訓練用に、10時間、250時間、1,000時間、2,500時間、10,000時間の5種類のサブセットを提供している。特に10,000時間のXL訓練サブセットでは、フィルタリング・検証段階で単語誤り率(WER)を4%以下に制限した。他の小規模な訓練サブセットについては、すべてのデータでWERを0%に制限した。一方、評価用のDEVおよびTESTセットは、専門の人力トランスクリプターにより再処理され、高品質な転写を確保している。また、広く用いられる音声認識ツールキット(Athena、ESPnet、Kaldi、Pika)向けにベースラインシステムも提供している。