한 달 전

깊이 있는 오디오-비주얼 음성 인식

Triantafyllos Afouras; Joon Son Chung; Andrew Senior; Oriol Vinyals; Andrew Zisserman
깊이 있는 오디오-비주얼 음성 인식
초록

이 연구의 목표는 오디오가 있는 경우나 없는 경우에 말하는 얼굴에서 문구와 문장을 인식하는 것입니다. 이전 연구들이 제한된 수의 단어나 문구를 인식하는 데 초점을 맞추었던 것과 달리, 우리는 자유롭게 제약받지 않는 자연어 문장과 실제 환경에서 촬영된 동영상에서 입술 읽기를 개방형 문제로 다루었습니다. 우리의 주요 기여점은 다음과 같습니다: (1) CTC 손실을 사용하는 모델과 시퀀스-투-시퀀스(sequence-to-sequence) 손실을 사용하는 모델을 비교합니다. 두 모델 모두 트랜스포머 자기 주의(self-attention) 아키텍처 위에 구축되었습니다; (2) 우리는 특히 오디오 신호가 노이즈가 많은 경우, 입술 읽기가 오디오 음성 인식과 얼마나 보완적인지를 조사합니다; (3) 우리는 새로운 오디오-비주얼 음성 인식 데이터셋인 LRS2-BBC를 소개하고 공개적으로 배포합니다. 이 데이터셋은 영국 텔레비전에서 수천 개의 자연어 문장으로 구성되어 있습니다. 우리가 훈련한 모델들은 입술 읽기 벤치마크 데이터셋에서 모든 이전 연구보다 크게 우수한 성능을 보였습니다.