10일 전
형태 변형 흐름 기반 이중 스트림 네트워크를 이용한 입술 읽기
Jingyun Xiao, Shuang Yang, Yuanhang Zhang, Shiguang Shan, Xilin Chen

초록
입말 읽기는 사람들이 말할 때 입술 부위의 움직임을 분석하여 말의 내용을 인식하는 작업이다. 말하는 과정에서 인접 프레임 간의 연속성과, 동일한 음소를 발음할 때 다양한 화자 간에 나타나는 운동 패턴의 일관성을 관찰함으로써, 말하는 과정에서의 입술 움직임을 입술 부위의 시각적 변형 시퀀스로 모델링한다. 구체적으로, 인접 프레임 간의 변형 흐름을 학습하기 위해 변형 흐름 네트워크(Deformation Flow Network, DFN)를 제안하며, 이는 입술 부위 내의 운동 정보를 직접적으로 포착한다. 학습된 변형 흐름은 원본 회색조 프레임과 함께 이중 흐름 네트워크(dual-stream network)에 결합되어 입말 읽기 작업에 활용된다. 기존의 이중 흐름 네트워크와 달리, 양쪽 흐름이 학습 과정에서 상호 보완적으로 학습할 수 있도록 양방향 지식 전이 손실(bidirectional knowledge distillation loss)을 도입하여 두 가지 분기(branch)를 공동으로 학습시킨다. 서로 다른 분기들이 제공하는 보완적인 정보 덕분에, 이중 흐름 네트워크는 단일 분기만을 사용하는 경우에 비해 상당한 성능 향상을 보인다. 제안한 방법의 효과를 검증하기 위해 두 개의 대규모 입말 읽기 벤치마크에서 철저한 실험 평가와 세부 분석을 수행하였다. 실험 결과는 본 연구의 동기를 잘 반영하며, 제안한 방법이 이 두 어려운 데이터셋에서 최신 기술(SOTA) 수준 또는 그에 준하는 성능을 달성함을 보여준다.