2ヶ月前

End-to-end Audio-visual Speech Recognition with Conformers コンフォーマーを用いたエンドツーエンド音声視覚的な音声認識

Ma, Pingchuan ; Petridis, Stavros ; Pantic, Maja
End-to-end Audio-visual Speech Recognition with Conformers
コンフォーマーを用いたエンドツーエンド音声視覚的な音声認識
要約

本研究では、ResNet-18と畳み込み強化型トランスフォーマー(Conformer)を基にしたハイブリッドCTC/アテンションモデルを提案します。特に、このモデルは音声と視覚のエンコーダがそれぞれ生のピクセルと音声波形から特徴量を直接抽出し、それらがConformerに入力され、その後マルチレイヤーパーセプトロン(MLP)を介して融合されます。モデルはCTCとアテンション機構の組み合わせを使用して文字を認識することを学習します。私たちは、文献で一般的な事前計算された視覚特徴量の使用ではなくエンドツーエンドでの学習、再帰ネットワークではなくConformerの使用、そしてトランスフォーマーに基づく言語モデルの使用が、我々のモデルの性能を大幅に向上させることを示しています。また、文レベルの音声認識に関する最大規模の公開データセットであるLip Reading Sentences 2 (LRS2)およびLip Reading Sentences 3 (LRS3)での実験結果を報告します。これらの結果は、提案したモデルが音声のみ、視覚のみ、および音声・視覚併用の実験において現行最先端の性能を大幅に上回ることを示しています。