16일 전

MMS-LLaMA: 최소 다중모달 음성 토큰을 활용한 효율적인 LLM 기반 음성-시각 음성 인식

Yeo, Jeong Hun, Rha, Hyeongseop, Park, Se Jin, Ro, Yong Man
MMS-LLaMA: 최소 다중모달 음성 토큰을 활용한 효율적인 LLM 기반 음성-시각 음성 인식
초록

음성-시각 음성 인식(AVSR)은 청각적 정보와 시각적 정보를 결합함으로써 소음이 심한 환경에서도 강건한 음성 인식을 달성한다. 그러나 최근의 대규모 언어 모델(LLM) 기반 AVSR 시스템은 LLM이 처리하는 음성-시각 음성의 높은 시간 해상도로 인해 높은 계산 비용을 수반한다. 본 연구에서는 필수적인 언어적 내용을 유지하면서 토큰 길이를 최소화하는 효율적인 다중모달 음성 LLM 프레임워크를 제안한다. 제안하는 방법은 특징 통합을 간소화하기 위한 조기 AV-융합 모듈, 입력 지속 시간에 따라 동적으로 토큰을 할당하는 음성-시각 음성 Q-Former, 그리고 각 오디오 샘플의 발화 속도에 따라 토큰 할당을 조정할 수 있는 음성 속도 예측기를 활용한 개선된 쿼리 할당 전략을 포함한다. LRS3 데이터셋에서 실시한 광범위한 실험 결과, 본 방법은 1초당 단지 3.5개의 토큰을 사용하면서도 최신 기준(WER 0.72%)의 성능을 달성하였다. 또한, 기존의 다중모달 음성 LLM 프레임워크 대비 토큰 사용량을 86% 감소시켰을 뿐만 아니라, FLOPs를 35.7% 감소시켜 계산 효율성을 크게 향상시켰다.