2ヶ月前

Auto-AVSR: 音声と視覚を用いた自動ラベリングによる音声認識

Ma, Pingchuan ; Haliassos, Alexandros ; Fernandez-Lopez, Adriana ; Chen, Honglie ; Petridis, Stavros ; Pantic, Maja
Auto-AVSR: 音声と視覚を用いた自動ラベリングによる音声認識
要約

音声視覚音声認識は、音響ノイズに対する堅牢性から多くの注目を集めています。最近、自動的、視覚的、および音声視覚的な音声認識(それぞれ ASR, VSR, AV-ASR)の性能が大幅に向上しており、主に大規模なモデルと訓練セットの使用により達成されています。しかし、データセットの正確なラベリングには時間がかかり、費用も高額です。そこで本研究では、未ラベリングデータセットの自動生成された転記を用いて訓練セットのサイズを増加させる方法を調査しました。この目的のために、公開されている事前学習済みの ASR モデルを使用して、AVSpeech や VoxCeleb2 のような未ラベリングデータセットを自動的に転記しました。その後、拡張された訓練セット(LRS2 および LRS3 データセットに加えて追加の自動転記データ)で ASR, VSR, AV-ASR モデルを訓練しました。我々は文献における最近のトレンドである訓練セットのサイズ増加がノイジートランスクリプトを使用しても WER を低下させることを示しています。提案されたモデルは LRS2 および LRS3 上での AV-ASR において新しい最先端性能を達成しました。特に LRS3 では WER 0.9% を達成し、現行の最先端アプローチに対して相対的に 30% の改善を示し、非公開データセットで 26 倍多い訓練データを使用した方法よりも優れています。