
초록
시각적 음성 인식(VSR)은 오디오 스트림에 의존하지 않고 입술 움직임을 기반으로 음성의 내용을 인식하는 것을 목표로 합니다. 딥 러닝의 발전과 대규모 오디오-비주얼 데이터셋의 확보는 이전보다 훨씬 정확하고 견고한 VSR 모델의 개발을 이끌었습니다. 그러나 이러한 발전은 대부분 더 큰 학습 세트 때문이지 모델 설계 때문이 아닙니다. 본 연구에서는 더 나은 모델 설계가 더 큰 학습 세트 사용만큼 중요하다는 점을 입증합니다. 우리는 예측 기반 보조 작업을 VSR 모델에 추가하는 방법을 제안하며, 하이퍼파라미터 최적화와 적절한 데이터 증강의 중요성을 강조합니다. 실험 결과, 이러한 모델은 다양한 언어에서 작동하며 공개된 데이터셋으로 학습된 모든 이전 방법보다 크게 우수한 성능을 보였습니다. 심지어 비공개 데이터셋으로 학습된 모델들, 그 중 일부는 21배 많은 데이터를 사용한 것들까지도 능가했습니다. 또한 다른 언어나 자동 생성된 전사본을 포함한 추가적인 학습 데이터를 사용하면 더욱 개선되는 것을 보여주었습니다.