11일 전

Zero-AVSR: LLM을 활용한 언어 독립적 음성 표현 학습을 통한 제로샷 오디오-비주얼 음성 인식

Jeong Hun Yeo, Minsu Kim, Chae Won Kim, Stavros Petridis, Yong Man Ro
Zero-AVSR: LLM을 활용한 언어 독립적 음성 표현 학습을 통한 제로샷 오디오-비주얼 음성 인식
초록

우리는 대상 언어의 음성-시각적 음성 데이터가 전혀 필요 없이 해당 언어에서 음성 인식이 가능한 새로운 제로샷 음성-시각적 음성 인식(Zero-shot Audio-Visual Speech Recognition, AVSR) 프레임워크, 즉 Zero-AVSR를 제안한다. 구체적으로, 로마자 텍스트를 예측함으로써 언어에 종속되지 않는 음성 표현을 학습하는 음성-시각적 음성 로마자화기(Audio-Visual Speech Romanizer, AV-Romanizer)를 도입한다. 이후 대규모 언어 모델(Large Language Models, LLMs)의 강력한 다국어 모델링 능력을 활용하여 예측된 로마자 텍스트를 각 언어에 특화된 그래피모(그래프림)로 변환하는 방식으로, 제안된 계단식 제로샷 AVSR(Cascaded Zero-AVSR)를 구성한다. 이를 더 발전시켜, AV-Romanizer에 의해 인코딩된 음성-시각적 음성 표현을 LLM에 직접 통합하는 통합형 제로샷 AVSR 접근법을 탐색한다. 이는 본 연구에서 제안한 다중 작업 학습 방식을 활용하여 어댑터와 LLM을 미세조정함으로써 달성된다. 또한, 음성 및 언어적 다양성의 광범위한 스펙트럼을 포괄하기 위해, 82개 언어에 걸쳐 총 2,916시간의 음성-시각적 음성 데이터를 포함하며, 각각 언어별 그래피모와 로마자 텍스트로 표기된 다국어 음성-시각적 로마자 코퍼스(Multilingual Audio-Visual Romanized Corpus, MARC)를 도입한다. 광범위한 분석과 실험을 통해 제안된 Zero-AVSR 프레임워크가 AV-Romanizer 학습 시 접한 언어를 초월하여 더 넓은 언어 지원 가능성을 지닌다는 것이 확인되었다.

Zero-AVSR: LLM을 활용한 언어 독립적 음성 표현 학습을 통한 제로샷 오디오-비주얼 음성 인식 | 최신 연구 논문 | HyperAI초신경