10일 전

시공간 융합 기반 컨볼루션 시퀀스 학습을 활용한 입술 읽기

{ Shilin Wang, Feng Cheng, Xingxuan Zhang}
시공간 융합 기반 컨볼루션 시퀀스 학습을 활용한 입술 읽기
초록

최근 최고의 성능을 보이는 입모양 읽기(lip reading) 기법들은 자연어 기계 번역 및 음성 인식에 사용되는 시퀀스-투-시퀀스 아키텍처를 기반으로 하고 있다. 따라서 이러한 방법들은 입술 운동의 특성을 충분히 활용하지 못하며, 두 가지 주요한 단점이 발생한다. 첫째, 입술 이미지에서 비제임( visemes)으로의 매핑에 핵심적인 역할을 하는 단기적 시계적 의존성(short-range temporal dependencies)에 특별한 주목을 하지 못한다. 둘째, 기존의 시퀀스 모델에서 전역 평균 풀링(global average pooling, GAP)을 사용함에 따라 국소적 공간 정보가 소실된다. 이러한 단점을 효과적으로 해결하기 위해, 우리는 단기적 의존성을 충분히 표현할 수 있는 ‘시간적 집중 블록(Temporal Focal block)’과 국소적 공간 정보를 유지하면서 특징 차원을 감소시키는 ‘공간-시계적 융합 모듈(Spatio-Temporal Fusion Module, STFM)’을 제안한다. 실험 결과, 제안한 방법은 훨씬 적은 학습 데이터와 더 가벼운 컨볼루션 특징 추출기(Convolutional Feature Extractor)를 사용하면서도 최첨단 기법과 비교해 유사한 성능을 달성함을 입증하였다. 또한 컨볼루션 구조와 국소적 자기 주의 메커니즘(local self-attention mechanism)의 도입으로 학습 시간이 12일 감소하였다.