生データから視覚的および聴覚的音声表現を共同で学習する

私たちはRAVEn(自己監督型多モーダルアプローチ)を提案します。この手法は視覚と聴覚の音声表現を共同で学習することを目指しています。私たちの事前学習目標は、マスクされた入力をエンコードし、その後、徐々に変化するモメンタムエンコーダによって生成された文脈化されたターゲットを予測することです。ビデオとオーディオの固有の違いに基づいて、私たちの設計は2つのモーダリティのプレテキストタスクに関して非対称的です:聴覚ストリームは視覚および聴覚の両方のターゲットを予測する一方で、視覚ストリームは聴覚ターゲットのみを予測します。単一の事前学習ステージから得られた視覚および聴覚エンコーダを微調整した際、低リソースおよび高リソースラベル付きデータ設定において強力な結果が観察されました。このステージではエンコーダが共同で訓練されます。特に、RAVEnはLRS3における視覚音声認識(VSR)で全ての自己監督型手法を上回り、30時間分のラベル付きデータのみを使用して自己教師あり学習を組み合わせた場合、90,000時間分の非公開データで訓練された最近の半教師あり手法よりも優れた性能を示しました。同時に、LRS3低リソース設定における聴覚音声認識(ならびにVSR)でも最先端の結果を得ています。これらの知見は、手作業による特徴量に依存せずに完全に生データから強力な音声表現を学習することが可能であることを示唆しています。コードとモデルはhttps://github.com/ahaliassos/raven で利用可能です。注:「RAVEn」は「Recurrent Audio-Visual Encoder」(再帰的な音声-視覚エンコーダ)または「Recurrent Audio-Visual Embedding Network」(再帰的な音声-視覚埋め込みネットワーク)などの略称である可能性がありますが、具体的な定義が提供されていないため、「RAVEn」としてそのまま使用しています。