LipNet: End-to-End 문장 단위 입술 읽기

입모양 읽기(lipreading)는 화자의 입 움직임에서 텍스트를 해독하는 작업입니다. 전통적인 접근 방식은 문제를 두 단계로 나누어 처리하였습니다: 시각적 특징을 설계하거나 학습하고, 예측을 수행하는 것입니다. 최근의 딥 립리딩(deep lipreading) 접근 방식은 완전히 엔드투엔드(end-to-end)로 학습할 수 있습니다 (Wand 등, 2016; Chung 및 Zisserman, 2016a). 그러나 기존의 엔드투엔드로 학습된 모델들은 문장 수준의 시퀀스 예측이 아니라 단어 분류만 수행합니다. 연구에 따르면, 인간의 입모양 읽기 성능은 더 긴 단어일수록 향상되는 것으로 나타났습니다 (Easton 및 Basala, 1982). 이는 모호한 의사소통 채널에서 시간적 맥락을 포착하는 특징들의 중요성을 시사합니다. 이러한 관찰에 동기를 부여받아, 우리는 LipNet이라는 모델을 제시합니다. LipNet은 비디오 프레임의 가변 길이 시퀀스를 텍스트로 매핑하며, 시공간 컨볼루션(spatiotemporal convolutions), 순환 신경망(recurrent network), 그리고 연결주의 시간 분류 손실(connectionist temporal classification loss)을 사용하여 완전히 엔드투엔드로 학습됩니다. 우리所知에 따르면, LipNet은 simultaneously 학습하는 첫 번째 엔드투엔드 문장 수준의 입모양 읽기 모델로서, 시공간 시각적 특징과 시퀀스 모델을 동시에 학습합니다. GRID 코퍼스에서 LipNet은 문장 수준의 중복 화자 분할 작업에서 95.2%의 정확도를 달성하여 경험이 많은 인간 입모양 읽기 전문가와 이전 최고 성능인 86.4%의 단어 수준 정확도(Gergen 등, 2016)를 상회하였습니다.注:在最后一句中,“我们所知”被翻译为“우리所知”,这是因为“我们所知”没有一个完全对应的韩语表达。通常情况下,可以省略或者用“우리가 아는 한”来替代,以保持句子的流畅性和正式性。因此,建议将最后一句修改为:"우리가 아는 한, LipNet은 시공간 시각적 특징과 시퀀스 모델을 동시에 학습하는 첫 번째 엔드투엔드 문장 수준의 입모양 읽기 모델입니다."