
본 논문의 목표는 침묵된 비디오에서 음성을 인식할 수 있는 강력한 입술 읽기 모델을 학습하는 것입니다. 대부분의 이전 연구들은 기존의 자동 음성 인식 기술을 단순히 결합한 시각적 특징 위에서 열린 집합(open-set) 시각적 음성 인식 문제를 다루었습니다. 반면에, 본 논문에서는 입술 읽기에 직면하는 고유한 도전 과제에 초점을 맞추고 맞춤형 해결책을 제안합니다. 이를 위해 다음과 같은 공헌을 합니다:(1) 시각적 음성 표현을 집계하기 위한 주의 기반 풀링 메커니즘을 제안합니다;(2) 입술 읽기에 처음으로 하위 단어(sub-word) 단위를 사용하여 이 작업의 모호성을 더 잘 모델링할 수 있음을 보여줍니다;(3) 입술 읽기 네트워크 위에서 훈련된 시각적 음성 검출(Visual Speech Detection, VSD) 모델을 제안합니다.이러한 접근법에 따라 공개 데이터셋에서 훈련할 때 어려운 LRS2 및 LRS3 벤치마크에서 최신 성능을 달성하였으며, 대규모 산업 데이터셋에서 훈련된 모델보다도 10분의 1 정도 적은 데이터로 더 우수한 결과를 얻었습니다. 우리의 최고 성능 모델은 LRS2 데이터셋에서 22.6%의 단어 오류율(word error rate)을 달성하였는데, 이는 입술 읽기 모델로서 전례 없는 성능이며, 입술 읽기와 자동 음성 인식 사이의 성능 차이를 크게 줄였습니다. 또한 AVA-ActiveSpeaker 벤치마크에서는 모든 시각적 방법만 사용한 기준선(baselines)을 능가하고, 최근 몇몇 오디오-시각적 방법들보다도 더 우수한 성능을 보였습니다.