HyperAIHyperAI

Command Palette

Search for a command to run...

GigaSpeech:10,000時間分の音声を収録した進化型で多領域対応のASRコーパス

概要

本稿では、教師あり学習に適した高品質なラベル付き音声データ10,000時間、および半教師あり・非教師あり学習に適した合計40,000時間の音声データを含む、進化型で多領域にわたる英語音声認識コーパス「GigaSpeech」を紹介する。まず、アーティスト、科学、スポーツなど多様なトピックをカバーする、読み上げスタイルおよび自然な会話スタイルの音声データを、オーディオブック、パッドキャスト、YouTubeなどから約40,000時間収集した。その後、音声認識学習に適した文単位のセグメントを生成し、低品質な転写を除外するため、新規の強制同期(forced alignment)とセグメンテーションパイプラインを提案した。システムの訓練用に、10時間、250時間、1,000時間、2,500時間、10,000時間の5種類のサブセットを提供している。特に10,000時間のXL訓練サブセットでは、フィルタリング・検証段階で単語誤り率(WER)を4%以下に制限した。他の小規模な訓練サブセットについては、すべてのデータでWERを0%に制限した。一方、評価用のDEVおよびTESTセットは、専門の人力トランスクリプターにより再処理され、高品質な転写を確保している。また、広く用いられる音声認識ツールキット(Athena、ESPnet、Kaldi、Pika)向けにベースラインシステムも提供している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています