
要約
視覚情報は、特に音声認識(ASR)の性能が著しく低下するノイズの多い環境において、音声モダリティの補完的手段として広く用いられる。視覚モダリティを組み合わせることで、単一音声モダリティに基づくASRは、多モダリティ音声認識(MSR)へと進化する。本論文では、二段階型音声認識モデルを提案する。第一段階では、唇の動きに対応する視覚情報を活用して、背景ノイズからターゲット音声を分離し、モデルが「明確に聞こえる」状態にする。第二段階では、音声モダリティが再び視覚モダリティと統合され、MSRサブネットワークによってより正確な音声理解が行われ、認識精度がさらに向上する。本研究の主な貢献は以下の通りである:まず、より判別力の高い特徴を抽出するため、擬似3次元残差畳み込み(P3D)をベースとした視覚フロントエンドを導入した。次に、時系列処理に適した構造として、従来の1D ResNetに基づく時系列畳み込みブロックを時系列畳み込みネットワーク(TCN)にアップグレードした。さらに、長文シーケンス処理においてTransformerよりも優れた性能を発揮する、要素ごとのアテンションゲートドリカレントユニット(EleAtt-GRU)を基盤とするMSRサブネットワークを構築した。本モデルは、LRS3-TEDおよびLRWデータセットにおいて広範な実験を実施した結果、提案する二段階モデル(音声強化型多モダリティ音声認識、AE-MSR)は、顕著な差をもって最先端の性能を一貫して達成した。これにより、AE-MSRの必要性と有効性が明確に示された。