
要約
音声ベースの自動音声認識(ASR)は、騒音環境下で著しく性能が低下し、特に干渉する音声に対して脆弱です。これは、モデルがどの話者を転写すべきかを決定できないためです。音声-視覚的な音声認識(AVSR)システムは、騒音に影響を受けない視覚情報を音声ストリームに補完することで堅牢性を向上させ、モデルが目的の話者に焦点を当てるのを助けます。しかし、これまでのAVSR研究は監督学習設定にのみ焦点を当てていたため、ラベル付きデータの量によって進歩が制限されていました。本研究では、最先端の音声-視覚的な言語表現学習モデルであるAudio-Visual HuBERT(AV-HuBERT)に基づいた自己監督型AVSRフレームワークを提案します。最大規模の利用可能なAVSRベンチマークデータセットLRS3において、我々の手法はbabble noise(雑多な話し声)環境下で10%未満のラベル付きデータ(433時間対30時間)を使用して既存の最先端手法よりも約50%(28.0%対14.1%)優れた性能を示しました。また、平均的に音声ベースモデルのWER(単語誤り率)を75%以上(25.8%対5.8%)削減しています。