Zero-AVSR:言語に依存しない音声表現を学習することで、LLMを用いたゼロショット音声視覚音声認識

本研究では、対象言語に該当する音声・視覚的発話データを一切要しない、新たなゼロショット音声・視覚的発話認識(Audio-Visual Speech Recognition: AVSR)フレームワーク、すなわちZero-AVSRを提案する。具体的には、ローマ字テキストの予測を通じて言語に依存しない発話表現を学習する「音声・視覚的発話ローマ字化器(Audio-Visual Speech Romanizer: AV-Romanizer)」を導入する。その後、大規模言語モデル(Large Language Models: LLMs)の強力な多言語モデリング能力を活用し、予測されたローマ字テキストを各言語固有の音素(grapheme)に変換する手法を提案し、その結果として「段階的ゼロショットAVSR(Cascaded Zero-AVSR)」を構築する。さらに、AV-Romanizerによって符号化された音声・視覚的発話表現を直接LLMに統合する統一型ゼロショットAVSRアプローチを検討した。この実現は、本研究で提案するマルチタスク学習スキームを用いたアダプタおよびLLMのファインチューニングにより達成される。音声・視覚的発話の音韻的・言語的多様性を幅広く捉えるために、82言語にわたり2,916時間の音声・視覚的発話データと、各言語固有の音素およびローマ字による転写を含む「多言語音声・視覚的ローマ字コーパス(Multilingual Audio-Visual Romanized Corpus: MARC)」も新たに構築した。広範な分析と実験により、提案するZero-AVSRフレームワークが、AV-Romanizerの訓練時に見られなかった言語への言語対応拡張の可能性を有していることが確認された。