1ヶ月前
エンドツーエンドの音声視覚的音声認識
Stavros Petridis; Themos Stafylakis; Pingchuan Ma; Feipeng Cai; Georgios Tzimiropoulos; Maja Pantic

要約
最近、入力画像や音声信号からオーディオまたはビジュアルの特徴を抽出し、音声認識を行うエンドツーエンドの深層学習手法がいくつか提案されています。しかし、エンドツーエンドのオーディオビジュアルモデルに関する研究は非常に限られています。本研究では、残差ネットワークと双方向ゲートリカレントユニット(BGRUs)に基づくエンドツーエンドのオーディオビジュアルモデルを提示します。当該モデルは、画像ピクセルと音声波形から直接特徴を抽出し、大規模な公開データセット(LRW)上で文脈内の単語認識を行う最初のオーディオビジュアル統合モデルであると自負しています。このモデルは2つのストリームで構成されており、それぞれが口部領域と生の波形から直接特徴を抽出します。各ストリーム/モダリティにおける時間的な動態は2層のBGRUによってモデリングされ、複数のストリーム/モダリティの融合は別の2層のBGRUを通じて行われます。クリーンな音声条件および低ノイズレベル下では、エンドツーエンドの音声のみおよびMFCCベースのモデルに対して分類率に若干の改善が報告されています。高ノイズレベル下では、エンドツーエンドのオーディオビジュアルモデルが音声のみのモデルを大幅に上回ることが示されています。