2달 전

대형 언어 모델은 강력한 오디오-비주얼 음성 인식 학습자입니다.

Umberto Cappellazzo; Minsu Kim; Honglie Chen; Pingchuan Ma; Stavros Petridis; Daniele Falavigna; Alessio Brutti; Maja Pantic
대형 언어 모델은 강력한 오디오-비주얼 음성 인식 학습자입니다.
초록

다중 모드 대형 언어 모델(Multimodal Large Language Models, MLLMs)은 최근 그들의 뛰어난 다중 모드 이해 능력으로 연구의 주요 초점이 되고 있습니다. 예를 들어, 오디오 및 음성 영역에서는 오디오 인코더를 통해 계산된 오디오 토큰과 텍스트 토큰을 단순히 연결(concatenating)하여 (자동)음성 인식(Automatic Speech Recognition, ASR) 기능을 갖춘 LLM을 구축할 수 있으며, 이는 최신 성능을 달성할 수 있습니다. 반면에 시각적 및 시청각적 음성 인식(Visual and Audio-Visual Speech Recognition, VSR/AVSR)과 같은 과제들은 노이즈 불변의 입술 움직임 정보를 활용하지만 거의 또는 전혀 주목받지 못했습니다. 이러한 격차를 메우기 위해 우리는 강력한 시청각적 음성 인식 능력을 가진 새로운 MLLM인 Llama-AVSR을 제안합니다. 이 모델은 사전 학습된 오디오 및 비디오 인코더를 활용하여 모달리티별 토큰을 생성하고, 이를 텍스트 토큰과 함께 사전 학습된 LLM(예: Llama3.1-8B)에서 처리하여 결과적인 응답을 자동 회귀 방식으로 생성합니다. Llama-AVSR은 모달리티별 프로젝터와 LoRA 모듈만 학습되므로 학습 가능한 매개변수의 수가 적습니다. 다중 모달리티 인코더와 LLM은 동결된 상태로 유지됩니다.우리는 제안한 접근법을 가장 큰 공개 AVSR 벤치마크인 LRS3에서 평가하였으며, ASR 및 AVSR 과제에서 각각 WER 0.79%와 0.77%로 새로운 최신 성능을 달성하였습니다. 우리의 결과를 더욱 강화하기 위해, Llama-AVSR의 효과성을 지지하는 주요 요소들을 조사하였습니다: 사전 학습된 인코더와 LLM 선택, LoRA 모듈의 효율적인 통합, 그리고 모달리티에 따른 압축률을 통해 얻은 최적의 성능-효율 균형입니다.

대형 언어 모델은 강력한 오디오-비주얼 음성 인식 학습자입니다. | 최신 연구 논문 | HyperAI초신경