単一モーダルの自己監督学習を活用した多モーダル音声-視覚音声認識

トランスフォーマーに基づくモデルの訓練には大量のデータが必要ですが、マルチモーダルな環境でアライメント済みかつラベル付けされたデータを取得することは非常にコストがかかります。特に、オーディオ-ビジュアル音声認識(AVSR)においてはその傾向が顕著です。したがって、ラベルの付いていない単一モーダルデータを活用することは大いに意味があります。一方で、大規模な自己監督学習の効果はオーディオとビジュアルの両モーダルにおいて十分に確立されていますが、これらの事前学習モデルをマルチモーダルなシナリオに統合する方法についてはまだ十分に研究されていません。本研究では、単一モーダルの自己監督学習を活用してマルチモーダルなAVSRを促進することに成功しました。具体的には、オーディオとビジュアルのフロントエンドを大規模な単一モーダルデータセットで訓練し、その後、これらのフロントエンドの構成要素をより大きなマルチモーダルフレームワークに統合しました。このフレームワークはCTC(Connectionist Temporal Classification)とseq2seqデコーディングの組み合わせを通じて並列的なオーディオ-ビジュアルデータから文字列を認識します。我々は、単一モーダルの自己監督学習から継承された両コンポーネントが良好に協調することを示し、ファインチューニングを通じてマルチモーダルフレームワークが競争力のある結果をもたらすことを確認しました。提案モデルは単語レベルおよび文レベルのタスクにおいて実験的に検証されました。特に外部言語モデルを使用せずに、広く認知されているLip Reading Sentences 2 (LRS2) データセットでの性能が大幅に向上し、相対的な改善率30%という成果を得ました。