10일 전

효율적인 입술 읽기 위한 상호정보량 최대화

Xing Zhao, Shuang Yang, Shiguang Shan, Xilin Chen
효율적인 입술 읽기 위한 상호정보량 최대화
초록

최근 딥러닝의 급속한 발전과 다양한 잠재적 응용 분야로 인해 입술 읽기(lip reading)에 대한 연구 관심이 점차 증가하고 있다. 입술 읽기 작업에서 높은 성능을 달성하기 위한 핵심 요소는 입술 움직임 정보를 효과적으로 포착할 수 있는 표현 능력과 동시에 자세 변화, 조명 조건, 화자 외형 등의 변화로 인한 노이즈에 강건한 특성의 확보에 달려 있다. 이러한 목표를 달성하기 위해, 본 연구에서는 국소적 특징 수준과 전역 시퀀스 수준 양쪽에 상호정보량(mutual information) 제약을 도입하여 특징과 음성 내용 간의 관계를 강화하는 방안을 제안한다. 먼저, 각 시간 단계에서 생성되는 특징이 음성 내용과 강한 관계를 가지도록 하기 위해 국소적 상호정보량 최대화 제약(Local Mutual Information Maximization, LMIM)을 도입함으로써, 세밀한 입술 움직임을 탐지하고, 발음이 유사한 단어들 간의 미세한 차이(예: “spend”와 “spending”)를 구분하는 모델의 능력이 향상된다. 또한, 전역 시퀀스 수준에서 상호정보량 최대화 제약(Global Mutual Information Maximization, GMIM)을 도입함으로써, 모델이 음성 내용과 관련된 핵심 프레임에 더 집중하고, 발화 과정에서 발생하는 다양한 노이즈에는 덜 영향을 받도록 유도한다. 이러한 두 가지 장점을 결합함으로써, 제안하는 방법은 입술 읽기에서 분별력과 강건성 모두를 갖춘 효과적인 접근이 될 것으로 기대된다. 본 방법의 타당성을 검증하기 위해, 두 개의 대규모 벤치마크에서 평가를 수행하였으며, 기준 모델과의 비교, LMIM 및 GMIM의 성능 분석, 학습된 표현의 시각화 등을 포함한 다양한 측면에서 심층적인 분석과 비교를 수행하였다. 실험 결과는 제안한 방법의 효과성을 입증할 뿐만 아니라, 두 벤치마크 모두에서 새로운 최고 성능(SOTA, State-of-the-Art)을 기록함으로써 그 우수성을 확인하였다.