한 달 전
대규모 시각적 음성 인식
Brendan Shillingford; Yannis Assael; Matthew W. Hoffman; Thomas Paine; Cían Hughes; Utsav Prabhu; Hank Liao; Hasim Sak; Kanishka Rao; Lorrayne Bennett; Marie Mulville; Ben Coppin; Ben Laurie; Andrew Senior; Nando de Freitas

초록
이 연구는 개방형 어휘 시각적 음성 인식에 대한 확장 가능한 솔루션을 제시합니다. 이를 위해 우리는 현재까지 가장 큰 시각적 음성 인식 데이터셋을 구축했습니다(3,886시간의 비디오로 구성된 텍스트와 얼굴 영상 쌍). 동시에, 우리는 원시 비디오를 안정적인 입술 영상과 음소 시퀀스로 변환하는 비디오 처리 파이프라인, 입술 영상을 음소 분포 시퀀스로 매핑하는 확장 가능한 딥 뉴럴 네트워크, 그리고 단어 시퀀스를 출력하는 프로덕션 수준의 음성 디코더로 구성된 통합된 입술 읽기 시스템을 설계하고 학습시켰습니다. 제안된 시스템은 보유한 데이터셋에서 측정한 단어 오류율(WER)이 40.9%를 기록하였습니다. 이에 반해, 전문적인 입술 읽기 전문가들은 추가적인 문맥 정보에 접근할 때 같은 데이터셋에서 86.4% 또는 92.9%의 WER를 달성하였습니다. 우리의 접근 방식은 LipNet 및 Watch, Attend, and Spell (WAS)의 변형을 포함하여 다른 입술 읽기 방법들보다 크게 개선되었습니다. LipNet과 WAS는 각각 89.8%와 76.8%의 WER만을 달성할 수 있었습니다.