
초록
음성 기반 자동 음성 인식(Automatic Speech Recognition, ASR)은 소음 환경에서 크게 저하되며, 특히 방해 음성에 취약합니다. 이는 모델이 어느 발화자의 음성을 전사해야 할지 결정할 수 없기 때문입니다. 오디오-비주얼 음성 인식(Audio-Visual Speech Recognition, AVSR) 시스템은 소음에 영향을 받지 않는 시각적 정보를 오디오 스트림과 결합하여 모델의 안정성을 향상시키고, 원하는 발화자에게 집중하도록 돕습니다. 그러나 이전의 AVSR 연구는 지도 학습( Supervised Learning ) 설정에만 초점을 맞추었기 때문에, 라벨링된 데이터의 양에 의해 진전이 제한되었습니다. 본 연구에서는 최신 오디오-비주얼 음성 표현 학습 모델인 오디오-비주얼 HuBERT (Audio-Visual HuBERT, AV-HuBERT)를 기반으로 하는 자기 감독형(self-supervised) AVSR 프레임워크를 제시합니다. 가장 큰 AVSR 벤치마크 데이터셋인 LRS3에서 우리 접근법은 배경 소음(babble noise)이 있는 상황에서 10% 미만의 라벨링된 데이터(433시간 대 30시간)로 이전 최신 기술보다 약 50% 개선(28.0% 대 14.1%)되었으며, 평균적으로 오디오 기반 모델의 단어 인식률(Word Error Rate, WER)을 75% 이상 줄였습니다(25.8% 대 5.8%).