6ヶ月前

音声および音声処理

ディープラーニング

マルチタスク学習

アプローチ／フレームワーク

オーディオ

Ludwig Kürzinger Dominik Winkelbauer Lujun Li Tobias Watzel Gerhard Rigoll

概要

最近のエンドツーエンド型自動音声認識（ASR）システムは、従来のハイブリッドDNN/HMM ASRを上回る性能を示している。これらのシステムの性能向上は、アーキテクチャの改善に加えて、モデルの深さ、パラメータ数、およびモデル容量の増大にも起因している。しかし、その一方で、同等の性能を達成するためにはより多くの学習データが必要となるという課題も存在する。本研究では、ドイツ語音声認識用に公開されている複数のコーパス（未ラベルの音声データを含む）を統合し、1700時間を超える大規模な音声データセットを構築した。データ準備のため、まずConnectionist Temporal Classification（CTC）で事前学習されたASRモデルを用いて、セグメンテーションされていないまたはラベルのない学習データから新たな訓練データを自動的に生成する二段階アプローチを提案する。このアプローチでは、CTCで学習されたネットワークから得られるラベル確率をもとに、発話単位を抽出し、セグメントのアライメントを推定する。得られた訓練データを用いて、ハイブリッドCTC/アテンション型Transformerモデルを学習した結果、Tuda-DEテストセットにおいて12.8%のワード誤り率（WER）を達成し、従来のハイブリッドDNN/HMM ASRのベースライン（14.4%）を上回る性能を実現した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

音声および音声処理

ディープラーニング

マルチタスク学習

アプローチ／フレームワーク

オーディオ

Ludwig Kürzinger Dominik Winkelbauer Lujun Li Tobias Watzel Gerhard Rigoll

概要

最近のエンドツーエンド型自動音声認識（ASR）システムは、従来のハイブリッドDNN/HMM ASRを上回る性能を示している。これらのシステムの性能向上は、アーキテクチャの改善に加えて、モデルの深さ、パラメータ数、およびモデル容量の増大にも起因している。しかし、その一方で、同等の性能を達成するためにはより多くの学習データが必要となるという課題も存在する。本研究では、ドイツ語音声認識用に公開されている複数のコーパス（未ラベルの音声データを含む）を統合し、1700時間を超える大規模な音声データセットを構築した。データ準備のため、まずConnectionist Temporal Classification（CTC）で事前学習されたASRモデルを用いて、セグメンテーションされていないまたはラベルのない学習データから新たな訓練データを自動的に生成する二段階アプローチを提案する。このアプローチでは、CTCで学習されたネットワークから得られるラベル確率をもとに、発話単位を抽出し、セグメントのアライメントを推定する。得られた訓練データを用いて、ハイブリッドCTC/アテンション型Transformerモデルを学習した結果、Tuda-DEテストセットにおいて12.8%のワード誤り率（WER）を達成し、従来のハイブリッドDNN/HMM ASRのベースライン（14.4%）を上回る性能を実現した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

大規模コーパスに対するCTCによるセグメンテーション：ドイツ語エンドツーエンド音声認識へ | 記事 | HyperAI超神経