HyperAIHyperAI

Command Palette

Search for a command to run...

Zero-AVSR:言語に依存しない音声表現を学習することで、LLMを用いたゼロショット音声視覚音声認識

Jeong Hun Yeo Minsu Kim Chae Won Kim Stavros Petridis Yong Man Ro

概要

本研究では、対象言語に該当する音声・視覚的発話データを一切要しない、新たなゼロショット音声・視覚的発話認識(Audio-Visual Speech Recognition: AVSR)フレームワーク、すなわちZero-AVSRを提案する。具体的には、ローマ字テキストの予測を通じて言語に依存しない発話表現を学習する「音声・視覚的発話ローマ字化器(Audio-Visual Speech Romanizer: AV-Romanizer)」を導入する。その後、大規模言語モデル(Large Language Models: LLMs)の強力な多言語モデリング能力を活用し、予測されたローマ字テキストを各言語固有の音素(grapheme)に変換する手法を提案し、その結果として「段階的ゼロショットAVSR(Cascaded Zero-AVSR)」を構築する。さらに、AV-Romanizerによって符号化された音声・視覚的発話表現を直接LLMに統合する統一型ゼロショットAVSRアプローチを検討した。この実現は、本研究で提案するマルチタスク学習スキームを用いたアダプタおよびLLMのファインチューニングにより達成される。音声・視覚的発話の音韻的・言語的多様性を幅広く捉えるために、82言語にわたり2,916時間の音声・視覚的発話データと、各言語固有の音素およびローマ字による転写を含む「多言語音声・視覚的ローマ字コーパス(Multilingual Audio-Visual Romanized Corpus: MARC)」も新たに構築した。広範な分析と実験により、提案するZero-AVSRフレームワークが、AV-Romanizerの訓練時に見られなかった言語への言語対応拡張の可能性を有していることが確認された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています