한 달 전

야외에서의 입술 읽기 문장

Joon Son Chung; Andrew Senior; Oriol Vinyals; Andrew Zisserman

초록

이 연구의 목표는 음성과 함께 또는 없이 말하는 얼굴에서 문구와 문장을 인식하는 것입니다. 이전 연구들이 제한된 수의 단어나 문구를 인식하는 데 초점을 맞추었던 것과 달리, 우리는 자유롭고 제약 없는 자연어 문장과 실제 환경에서 촬영된 동영상에 대한 입술 읽기를 개방형 문제로 다룹니다.우리의 주요 기여점은 다음과 같습니다: (1) 입 모양 동영상을 문자로 변환하도록 학습하는 '감시, 듣기, 주의 집중, 철자 쓰기' (Watch, Listen, Attend and Spell, WLAS) 네트워크; (2) 훈련을 가속화하고 과적합을 줄이는 교육 과정 학습 전략; (3) 영국 텔레비전에서 100,000개 이상의 자연스러운 문장으로 구성된 시각적 음성 인식용 '입술 읽기 문장' (Lip Reading Sentences, LRS) 데이터셋.LRS 데이터셋으로 훈련된 WLAS 모델은 표준 입술 읽기 벤치마크 데이터셋에서 모든 이전 연구보다 우수한 성능을 보였으며, 종종 상당한 차이를 보였습니다. 이 입술 읽기 성능은 BBC 텔레비전 동영상에서 전문 입술 독해사조차도 능가하였으며, 우리는 또한 시각적 정보가 오디오가 제공되더라도 음성 인식 성능을 개선하는 데 도움이 됨을 입증하였습니다.