2ヶ月前

大規模言語モデルは強力な音声視覚的スピーチ認識学習者である

Umberto Cappellazzo; Minsu Kim; Honglie Chen; Pingchuan Ma; Stavros Petridis; Daniele Falavigna; Alessio Brutti; Maja Pantic

論文の詳細を見る

要約

多モーダル大規模言語モデル（MLLM）は、その卓越した多モーダル理解能力により、最近研究の焦点となっています。例えば、音声およびスピーチ領域では、音声エンコーダーによって計算された音声トークンとテキストトークンを単純に連結することで、（自動）音声認識（ASR）機能を備えたLLMを構築し、最先端の結果を得ることができます。一方で、ノイズに影響を受けにくい口唇の動き情報を活用する視覚的および視覚-音響的な音声認識（VSR/AVSR）タスクには、ほとんどまたは全く注目が払われていません。このギャップを埋めるため、我々は強力な視覚-音響的な音声認識能力を持つ新しいMLLMであるLlama-AVSRを提案します。このモデルは、事前学習済みの音声およびビデオエンコーダーを使用してモーダリティ固有のトークンを生成し、これらのトークンとテキストトークンを一緒に処理するために事前学習済みのLLM（例：Llama3.1-8B）を利用します。これにより自動回帰的に最終的な応答が生成されます。Llama-AVSRは、学習可能なパラメータ数が少ないため、モーダリティ固有の射影器とLoRAモジュールのみが訓練され、多モーダルエンコーダーとLLMは凍結されたままです。我々は提案手法を最大手の公開AVSRベンチマークであるLRS3で評価し、ASRおよびAVSRタスクにおいて新しい最先端の結果を得ました。それぞれワード誤り率（WER）は0.79%と0.77%でした。さらに我々は結果を補強するために、Llama-AVSRの効果性を支える主要な要因について調査しました。それらは以下の通りです：事前学習済みエンコーダーとLLMの選択、LoRAモジュールの効率的な統合、そしてモーダリティに応じた圧縮率を通じて得られる最適な性能-効率トレードオフです。