2ヶ月前
音声視覚音声認識のためのハイブリッドCTC/アテンションアーキテクチャ
Stavros Petridis; Themos Stafylakis; Pingchuan Ma; Georgios Tzimiropoulos; Maja Pantic

要約
最近の音声認識に関する研究では、接続時系列分類(CTC)または文字レベルの認識に使用されるシーケンス・ツー・シーケンスモデルのいずれかに依存しています。CTCは個々の文字の条件付き独立性を仮定する一方で、アテンションベースのモデルは非順序的なアライメントを提供することができます。したがって、単調なアライメントを強制しつつ、条件付き独立性の仮定を排除するために、CTC損失とアテンションベースのモデルを組み合わせて使用することができます。本論文では、最近提案されたハイブリッドCTC/アテンションアーキテクチャを使用して、野生環境下での音声のオーディオビジュアル認識を行います。当該研究において、このようなハイブリッドアーキテクチャがオーディオビジュアル認識に用いられるのは初めてであると認識しています。LRS2データベースを使用し、提案されたオーディオビジュアルモデルが単独の音声モデルよりも単語誤り率で1.3%絶対的に減少することを示しました。また、LRS2データベースにおける新しい最先端性能(7%の単語誤り率)を達成しています。さらに、信号対雑音比が低下するにつれて、さまざまな種類のノイズに対してオーディオビジュアルモデルが音声のみに基づくモデル(単語誤り率で最大32.9%絶対的な改善)を大幅に上回ることが観察されました。