HyperAIHyperAI

Command Palette

Search for a command to run...

大規模コーパスに対するCTCによるセグメンテーション:ドイツ語エンドツーエンド音声認識へ

Ludwig Kürzinger Dominik Winkelbauer Lujun Li Tobias Watzel Gerhard Rigoll

概要

最近のエンドツーエンド型自動音声認識(ASR)システムは、従来のハイブリッドDNN/HMM ASRを上回る性能を示している。これらのシステムの性能向上は、アーキテクチャの改善に加えて、モデルの深さ、パラメータ数、およびモデル容量の増大にも起因している。しかし、その一方で、同等の性能を達成するためにはより多くの学習データが必要となるという課題も存在する。本研究では、ドイツ語音声認識用に公開されている複数のコーパス(未ラベルの音声データを含む)を統合し、1700時間を超える大規模な音声データセットを構築した。データ準備のため、まずConnectionist Temporal Classification(CTC)で事前学習されたASRモデルを用いて、セグメンテーションされていないまたはラベルのない学習データから新たな訓練データを自動的に生成する二段階アプローチを提案する。このアプローチでは、CTCで学習されたネットワークから得られるラベル確率をもとに、発話単位を抽出し、セグメントのアライメントを推定する。得られた訓練データを用いて、ハイブリッドCTC/アテンション型Transformerモデルを学習した結果、Tuda-DEテストセットにおいて12.8%のワード誤り率(WER)を達成し、従来のハイブリッドDNN/HMM ASRのベースライン(14.4%)を上回る性能を実現した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています