10일 전
ASR는 모든 것입니다: 입형 읽기 위한 크로스모달 디스틸레이션
Triantafyllos Afouras, Joon Son Chung, Andrew Zisserman

초록
이 연구의 목적은 인간이 레이블링한 참조 데이터(ground truth data) 없이도 강력한 시각적 음성 인식 모델을 훈련하는 것이다. 이를 위해 대규모 오디오 전용 코퍼스에서 사전 훈련된 자동 음성 인식(Automatic Speech Recognition, ASR) 모델로부터 지식을 증류(distill)하는 방법을 사용한다. 우리는 연결주의적 시간 분류(Connectionist Temporal Classification, CTC)와 프레임 단위 크로스엔트로피 손실을 결합한 다중모달 증류(multi-modal distillation) 기법을 활용한다. 본 연구의 기여는 네 가지이다: (i) 참조 전사본(transcriptions)이 시각적 입술 읽기(lip reading) 시스템을 훈련하는 데 필수적이지 않음을 보여준다; (ii) 레이블이 없는 비디오 데이터를 임의의 양만큼 활용하여 성능을 향상시킬 수 있음을 보여준다; (iii) 증류 기법이 훈련 속도를 크게 가속화함을 입증한다; (iv) 공개된 데이터만을 사용하여 도전적인 LRS2 및 LRS3 데이터셋에서 최신 기술 수준(SOTA, state-of-the-art)의 성능을 달성한다.