11日前

MMS-LLaMA:最小限のマルチモーダル音声トークンを用いた効率的なLLMベースの音声視覚音声認識

Yeo, Jeong Hun, Rha, Hyeongseop, Park, Se Jin, Ro, Yong Man
MMS-LLaMA:最小限のマルチモーダル音声トークンを用いた効率的なLLMベースの音声視覚音声認識
要約

音声視覚語音認識(Audio-Visual Speech Recognition, AVSR)は、音声情報と視覚情報を統合することで、騒音環境下でも堅牢な語音認識を実現する。しかし、近年の大規模言語モデル(Large Language Model, LLM)に基づくAVSRシステムは、LLMが処理する音声視覚語音データの高い時間分解能により、計算コストが著しく増大している。本研究では、重要な言語的コンテンツを保持しつつ、トークン長を最小限に抑える効率的なマルチモーダル語音LLMフレームワークを提案する。本手法は、特徴の効率的統合を実現する早期AV統合モジュールを採用し、入力の持続時間に応じて動的にトークンを割り当てる音声視覚語音Q-Formerを導入する。さらに、各音声サンプルの話速に応じてトークン割り当てを調整するための、話速予測器を用いた改良型クエリ割り当て戦略を採用している。LRS3データセットにおける広範な実験の結果、本手法は0.72%というWER(文字誤り率)を達成し、最先端の性能を実現した。また、1秒あたり3.5トークンという極めて低いトークン消費量で実現しており、従来のマルチモーダル語音LLMフレームワークと比較してトークン使用量を86%削減するとともに、FLOPs(浮動小数点演算回数)を35.7%削減することで、計算効率の大幅な向上を達成した。

MMS-LLaMA:最小限のマルチモーダル音声トークンを用いた効率的なLLMベースの音声視覚音声認識 | 最新論文 | HyperAI超神経