한 달 전

다중 해상도 시공간 모델링을 이용한 입술 읽기

Chenhao Wang
다중 해상도 시공간 모델링을 이용한 입술 읽기
초록

입술 읽기(lip-reading)는 화자의 입술 움직임을 시각적으로 분석하여 비디오에서 말의 내용을 인식하는 것을 목표로 합니다. 이 작업은 동음이의어(homophemes)인 단어들, 즉 거의 동일하거나 매우 유사한 입술 움직임을 포함하는 단어들과 화자 간에 다양한 입술 모양과 움직임 패턴이 존재하기 때문에 어려운 과제입니다. 이러한 도전 과제를 해결하기 위해, 우리는 말하기 과정의 다중 층위 공간-시간 모델링(multi-grained spatio-temporal modeling)을 통해 단어 간의 미묘한 차이뿐만 아니라 다른 화자의 스타일까지 포착할 수 있는 새로운 입술 읽기 모델을 제안합니다. 구체적으로, 먼저 시각적 프론트엔드(visual front-end)를 통해 프레임 레벨(frame-level)의 세부 특징(fine-grained features)과 단기 중간 층위 특징(short-term medium-grained features)을 추출합니다. 이를 결합하여 유사한 음소(phonemes)를 가진 단어에 대한 차별화된 표현(discriminative representations)을 얻습니다. 다음으로, 시간 주의력(temporal attention)이 강화된 양방향 ConvLSTM(bidirectional ConvLSTM)이 전체 입력 시퀀스에서 공간-시간 정보(spatio-temporal information)를 집계합니다. 이는 각 단어의 대략적인 패턴(coarse-grained patterns)을 포착하고, 화자 신원, 조명 조건 등 다양한 상황에 견고하게 대응할 수 있을 것으로 기대됩니다. 통합된 프레임워크에서 다양한 수준의 정보를 충분히 활용함으로써, 모델은 발음이 유사한 단어들을 구분할 뿐만 아니라 외관 변화에도 견고해집니다. 우리는 두 가지 어려운 단어 수준 입술 읽기 벤치마크(word-level lip-reading benchmarks)에서 제안된 방법을 평가하고, 해당 방법의 효과성을 보여주며 위 주장들이 옳음을 입증하였습니다.

다중 해상도 시공간 모델링을 이용한 입술 읽기 | 최신 연구 논문 | HyperAI초신경