17日前

CHiME-6 ディナー・パーティー音声認識における競争力のあるエンドツーエンド型音声認識の実現

Andrei Andrusenko, Aleksandr Laptev, Ivan Medennikov
CHiME-6 ディナー・パーティー音声認識における競争力のあるエンドツーエンド型音声認識の実現
要約

エンドツーエンド型音声認識(ASR)システムは従来のハイブリッド手法と比較して競争力を持つことが示されてきたが、ノイズが多い環境や低リソース条件下では精度の低下を引き起こしやすい。本論文では、このような困難な状況下でも、一部のエンドツーエンド型アプローチがハイブリッドベースラインとほぼ同等の性能を発揮することを主張する。これを実証するために、日常的な会話におけるノイズの多い環境を模倣したCHiME-6チャレンジデータを用い、その挑戦的な設定を例に挙げる。実験的にCTC-AttentionとRNN-Transducerのアプローチを、RNNとTransformerのアーキテクチャを比較・分析した。また、音響特徴量と音声強調技術の比較も行い、低リソース条件下におけるニューラルネットワーク言語モデルを用いた仮説再スコアリングの有効性を検証した。本研究で得られた最良のエンドツーエンドモデル(RNN-Transducerベース)と改善されたビームサーチを組み合わせた場合、LF-MMI TDNN-FによるCHiME-6チャレンジベースラインと比較して、文字誤り率(WER)でわずか3.8%の絶対誤差にとどまる。さらに、ガイド付きソース分離に基づくデータ拡張を適用した場合、ハイブリッドベースラインシステムを2.7% WER(絶対値)上回り、従来知られていた最良のエンドツーエンドシステムよりも25.7% WER(絶対値)優れた性能を達成した。

CHiME-6 ディナー・パーティー音声認識における競争力のあるエンドツーエンド型音声認識の実現 | 最新論文 | HyperAI超神経