11일 전
적응형 의미-공간-시간 그래프 컨볼루션 네트워크를 활용한 입술 읽기
{Li Liu, Matti Pietikäinen, Huiying Xu, Xinzhong Zhu, Changchong Sheng}
초록
본 연구의 목적은 음성 데이터 없이 말하는 얼굴이 발화하는 단어, 구절, 문장을 인식하는 것이다. 현재의 딥러닝 기반 입술 읽기(리핑) 기법들은 주로 영상의 시각적 특징과 광학 흐름 정보를 탐색하는 데 집중하고 있다. 그러나 이러한 방법들은 입술 움직임의 특징을 충분히 활용하지 못하고 있다. 시각적 특징과 광학 흐름 외에도 입술 윤곽의 변형은 보통 다른 정보와 보완적인 중요한 정보를 전달한다. 그러나 입술 윤곽의 동적 특성을 모델링하는 연구는 시각적 특징과 광학 흐름에 비해 상대적으로 소홀히 다뤄져 왔다. 본 연구에서는 영상으로부터 공간적 및 시간적 정보를 자동으로 학습할 수 있도록, 동적 입술 윤곽을 모델링하는 새로운 네트워크인 적응형 의미-공간-시간 그래프 컨볼루션 네트워크(Adaptive Semantic-Spatio-Temporal Graph Convolution Network, ASST-GCN)를 제안한다. 시각적 특징과 입술 윤곽에서 유도된 보완적인 정보를 효과적으로 통합하기 위해 이중 스트림(두 개의 병렬) 시각 전단 네트워크를 설계하였다. 실험 결과, 제안한 방법이 여러 대규모 입술 읽기 벤치마크에서 최신 기술을 상회하는 성능을 보였음을 확인하였다.