6ヶ月前

音声および音声処理

ディープラーニング

自然言語処理

自然言語処理

オーディオ

René Peinl Johannes Wirth

概要

神経ネットワークに基づく自動音声認識（ASR）のための自由に利用可能なシステムの数は、着実に増加しており、予測の信頼性もさらに高まっている。しかし、訓練済みモデルの評価は、通常、WER（文字誤り率）やCER（単語誤り率）といった統計的指標に依存しており、音声入力からの転写予測時に生じる誤りの性質や影響についての洞察を提供しない。本研究では、ドイツ語で事前学習された複数のASRモデルアーキテクチャを提示し、多様なテストデータセットから構成されるベンチマーク上でそれらを評価する。さらに、アーキテクチャ間での予測誤りを特定し、その誤りをカテゴリに分類した上で、各カテゴリごとの誤りの原因を学習データおよびその他の要因にまで遡って分析する。最後に、質の高い訓練データセットの構築およびより堅牢なASRシステムの実現に向けての解決策について議論する。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

音声および音声処理

ディープラーニング

自然言語処理

自然言語処理

オーディオ

René Peinl Johannes Wirth

概要

神経ネットワークに基づく自動音声認識（ASR）のための自由に利用可能なシステムの数は、着実に増加しており、予測の信頼性もさらに高まっている。しかし、訓練済みモデルの評価は、通常、WER（文字誤り率）やCER（単語誤り率）といった統計的指標に依存しており、音声入力からの転写予測時に生じる誤りの性質や影響についての洞察を提供しない。本研究では、ドイツ語で事前学習された複数のASRモデルアーキテクチャを提示し、多様なテストデータセットから構成されるベンチマーク上でそれらを評価する。さらに、アーキテクチャ間での予測誤りを特定し、その誤りをカテゴリに分類した上で、各カテゴリごとの誤りの原因を学習データおよびその他の要因にまで遡って分析する。最後に、質の高い訓練データセットの構築およびより堅牢なASRシステムの実現に向けての解決策について議論する。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています