HyperAIHyperAI

Command Palette

Search for a command to run...

CHiME-4チャレンジを用いた最先端の遠隔音声認識システムの構築と音声強化基準設定の評価

Szu-Jui Chen Aswin Shanmugam Subramanian Hainan Xu Shinji Watanabe

概要

本論文では、CHiME-4チャレンジにおける自動音声認識(ASR)の新しいベースラインシステムについて述べます。このシステムは、音声処理コミュニティにおけるノイジーASRの開発を促進するために、1) 現在の最先端システムと同等でありながら簡素化された単一システムを提供し、2) Kaldi音声認識ツールキットの主要リポジトリを通じて公開され再現可能なレシピを提供します。提案されたシステムでは、双方向長短期記憶(LSTM)マスク推定を用いた一般化固有値ビームフォーミングを採用しています。さらに、ビームフォーミング後の強化データと6つのマイクからの拡張データを使用して、最大相互情報量(MMI)のラティスフリー版(LF-MMI)に基づく時間遅延ニューラルネットワーク(TDNN)の使用も提案します。最後に、LSTM言語モデルを使用してラティスおよびn-ベスト再スコアリングを行います。最終的なシステムは6チャンネルトラックで実際のテストセットにおいて2.74%のWERを達成し、チャレンジで2位相当の結果となりました。また、提案されたベースラインレシピには、シミュレーションテストセット向けに4つの異なる音声強化指標が含まれています。これらの指標は短時間客観的聴解度指標(STOI)、拡張STOI(eSTOI)、音声品質の知覚評価(PESQ)、音声歪み比(SDR)です。したがって、このレシピはこれらの性能指標を持つ音声強化研究のための実験プラットフォームも提供しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています