17日前
大規模コーパスに対するCTCによるセグメンテーション:ドイツ語エンドツーエンド音声認識へ
Ludwig Kürzinger, Dominik Winkelbauer, Lujun Li, Tobias Watzel, Gerhard Rigoll

要約
最近のエンドツーエンド型自動音声認識(ASR)システムは、従来のハイブリッドDNN/HMM ASRを上回る性能を示している。これらのシステムの性能向上は、アーキテクチャの改善に加えて、モデルの深さ、パラメータ数、およびモデル容量の増大にも起因している。しかし、その一方で、同等の性能を達成するためにはより多くの学習データが必要となるという課題も存在する。本研究では、ドイツ語音声認識用に公開されている複数のコーパス(未ラベルの音声データを含む)を統合し、1700時間を超える大規模な音声データセットを構築した。データ準備のため、まずConnectionist Temporal Classification(CTC)で事前学習されたASRモデルを用いて、セグメンテーションされていないまたはラベルのない学習データから新たな訓練データを自動的に生成する二段階アプローチを提案する。このアプローチでは、CTCで学習されたネットワークから得られるラベル確率をもとに、発話単位を抽出し、セグメントのアライメントを推定する。得られた訓練データを用いて、ハイブリッドCTC/アテンション型Transformerモデルを学習した結果、Tuda-DEテストセットにおいて12.8%のワード誤り率(WER)を達成し、従来のハイブリッドDNN/HMM ASRのベースライン(14.4%)を上回る性能を実現した。