6ヶ月前

音声および音声処理

データセット

AIインフラストラクチャ

オーディオ

Guoguo Chen Shuzhou Chai Guanbo Wang Jiayu Du Wei-Qiang Zhang Chao Weng Dan Su Daniel Povey Jan Trmal Junbo Zhang

概要

本稿では、教師あり学習に適した高品質なラベル付き音声データ10,000時間、および半教師あり・非教師あり学習に適した合計40,000時間の音声データを含む、進化型で多領域にわたる英語音声認識コーパス「GigaSpeech」を紹介する。まず、アーティスト、科学、スポーツなど多様なトピックをカバーする、読み上げスタイルおよび自然な会話スタイルの音声データを、オーディオブック、パッドキャスト、YouTubeなどから約40,000時間収集した。その後、音声認識学習に適した文単位のセグメントを生成し、低品質な転写を除外するため、新規の強制同期（forced alignment）とセグメンテーションパイプラインを提案した。システムの訓練用に、10時間、250時間、1,000時間、2,500時間、10,000時間の5種類のサブセットを提供している。特に10,000時間のXL訓練サブセットでは、フィルタリング・検証段階で単語誤り率（WER）を4%以下に制限した。他の小規模な訓練サブセットについては、すべてのデータでWERを0%に制限した。一方、評価用のDEVおよびTESTセットは、専門の人力トランスクリプターにより再処理され、高品質な転写を確保している。また、広く用いられる音声認識ツールキット（Athena、ESPnet、Kaldi、Pika）向けにベースラインシステムも提供している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

音声および音声処理

データセット

AIインフラストラクチャ

オーディオ

Guoguo Chen Shuzhou Chai Guanbo Wang Jiayu Du Wei-Qiang Zhang Chao Weng Dan Su Daniel Povey Jan Trmal Junbo Zhang

概要

本稿では、教師あり学習に適した高品質なラベル付き音声データ10,000時間、および半教師あり・非教師あり学習に適した合計40,000時間の音声データを含む、進化型で多領域にわたる英語音声認識コーパス「GigaSpeech」を紹介する。まず、アーティスト、科学、スポーツなど多様なトピックをカバーする、読み上げスタイルおよび自然な会話スタイルの音声データを、オーディオブック、パッドキャスト、YouTubeなどから約40,000時間収集した。その後、音声認識学習に適した文単位のセグメントを生成し、低品質な転写を除外するため、新規の強制同期（forced alignment）とセグメンテーションパイプラインを提案した。システムの訓練用に、10時間、250時間、1,000時間、2,500時間、10,000時間の5種類のサブセットを提供している。特に10,000時間のXL訓練サブセットでは、フィルタリング・検証段階で単語誤り率（WER）を4%以下に制限した。他の小規模な訓練サブセットについては、すべてのデータでWERを0%に制限した。一方、評価用のDEVおよびTESTセットは、専門の人力トランスクリプターにより再処理され、高品質な転写を確保している。また、広く用いられる音声認識ツールキット（Athena、ESPnet、Kaldi、Pika）向けにベースラインシステムも提供している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています