HyperAIHyperAI

Command Palette

Search for a command to run...

大規模言語モデルは強力な音声視覚的スピーチ認識学習者である

Umberto Cappellazzo Minsu Kim Honglie Chen Pingchuan Ma Stavros Petridis Daniele Falavigna Alessio Brutti Maja Pantic

概要

多モーダル大規模言語モデル(MLLM)は、その卓越した多モーダル理解能力により、最近研究の焦点となっています。例えば、音声およびスピーチ領域では、音声エンコーダーによって計算された音声トークンとテキストトークンを単純に連結することで、(自動)音声認識(ASR)機能を備えたLLMを構築し、最先端の結果を得ることができます。一方で、ノイズに影響を受けにくい口唇の動き情報を活用する視覚的および視覚-音響的な音声認識(VSR/AVSR)タスクには、ほとんどまたは全く注目が払われていません。このギャップを埋めるため、我々は強力な視覚-音響的な音声認識能力を持つ新しいMLLMであるLlama-AVSRを提案します。このモデルは、事前学習済みの音声およびビデオエンコーダーを使用してモーダリティ固有のトークンを生成し、これらのトークンとテキストトークンを一緒に処理するために事前学習済みのLLM(例:Llama3.1-8B)を利用します。これにより自動回帰的に最終的な応答が生成されます。Llama-AVSRは、学習可能なパラメータ数が少ないため、モーダリティ固有の射影器とLoRAモジュールのみが訓練され、多モーダルエンコーダーとLLMは凍結されたままです。我々は提案手法を最大手の公開AVSRベンチマークであるLRS3で評価し、ASRおよびAVSRタスクにおいて新しい最先端の結果を得ました。それぞれワード誤り率(WER)は0.79%と0.77%でした。さらに我々は結果を補強するために、Llama-AVSRの効果性を支える主要な要因について調査しました。それらは以下の通りです:事前学習済みエンコーダーとLLMの選択、LoRAモジュールの効率的な統合、そしてモーダリティに応じた圧縮率を通じて得られる最適な性能-効率トレードオフです。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
大規模言語モデルは強力な音声視覚的スピーチ認識学習者である | 記事 | HyperAI超神経