7ヶ月前

音声および音声処理

データセット

自然言語処理

AIインフラストラクチャ

自然言語処理

オーディオ

Benjamin Milde Arne Köhn

概要

高品質な自動音声認識（Automatic Speech Recognition: ASR）は、音声ベースのアプリケーションや研究において必須の条件です。最先端のASRソフトウェアは無料で利用可能ですが、英語以外の言語に対する言語依存的な音響モデルが不足しています。これは、無料で利用できる学習データの量が限られているためです。本研究では、クリエイティブ・コモンズライセンスのもとで配布されている2つのデータセットを使用して、ドイツ語用の音響モデルをKaldiで訓練しました。これにより、生成されたモデルは自由に再配布でき、ドイツ語ASRへの参入コストが低下します。総計412時間のドイツ語読み上げ音声データを用いてモデルを訓練し、Spoken Wikipedia Corpusからのデータを既存の最良の無料ドイツ語音響モデルレシピおよびデータセットに追加することで、相対的な単語誤り率を26%削減しました。最良のモデルはTuda-Deテストセット上で14.38%の単語誤り率を達成しています。学習データには多くの話者と多様なトピックが含まれているため、当該モデルは話者の変動やトピックの切り替えに対して堅牢性を持っています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

音声および音声処理

データセット

自然言語処理

AIインフラストラクチャ

自然言語処理

オーディオ

Benjamin Milde Arne Köhn

概要

高品質な自動音声認識（Automatic Speech Recognition: ASR）は、音声ベースのアプリケーションや研究において必須の条件です。最先端のASRソフトウェアは無料で利用可能ですが、英語以外の言語に対する言語依存的な音響モデルが不足しています。これは、無料で利用できる学習データの量が限られているためです。本研究では、クリエイティブ・コモンズライセンスのもとで配布されている2つのデータセットを使用して、ドイツ語用の音響モデルをKaldiで訓練しました。これにより、生成されたモデルは自由に再配布でき、ドイツ語ASRへの参入コストが低下します。総計412時間のドイツ語読み上げ音声データを用いてモデルを訓練し、Spoken Wikipedia Corpusからのデータを既存の最良の無料ドイツ語音響モデルレシピおよびデータセットに追加することで、相対的な単語誤り率を26%削減しました。最良のモデルはTuda-Deテストセット上で14.38%の単語誤り率を達成しています。学習データには多くの話者と多様なトピックが含まれているため、当該モデルは話者の変動やトピックの切り替えに対して堅牢性を持っています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています