
초록
우리는 단어 수준의 시각적 음성 인식을 위한 엔드투엔드 딥 러닝 아키텍처를 제안합니다. 이 시스템은 시공간 컨볼루션, 잔차 및 양방향 롱 숏텀 메모리(LSTM) 네트워크의 조합입니다. 우리는 이 시스템을 BBC TV 방송에서 추출한 1.28초 길이의 비디오 클립으로 구성된 500개 단어로 이루어진 어려운 데이터베이스인 Lipreading In-The-Wild 벤치마크에서 훈련하고 평가하였습니다. 제안된 네트워크는 단어 정확도가 83.0%에 달하며, 훈련이나 테스트 과정에서 단어 경계 정보를 사용하지 않았음에도 불구하고 현재 최신 기술보다 절대적으로 6.8% 개선되었습니다.