
음성 없이 입술 움직임에서 음성을 인식하는 작업, 즉 립리딩은 1) 입술 움직임이 음성을 완전히 표현하기 위한 본질적인 정보 부족과 2) 다른 발음을 가진 유사한 입술 움직임을 보이는 동음이의어(homophenes)의 존재로 인해 어려운 과제입니다. 본 논문에서는 이러한 두 가지 문제를 완화하기 위해 다중 헤드 시각-청각 메모리(Multi-head Visual-audio Memory, MVM)를 제안합니다. 첫째, MVM은 오디오-비주얼 데이터셋으로 훈련되며, 짝을 이루는 오디오-비주얼 표현 간의 상호 관계를 모델링하여 오디오 표현을 기억합니다. 추론 단계에서는 학습된 상호 관계를 통해 시각적 입력만으로 메모리에서 저장된 오디오 표현을 추출할 수 있습니다. 따라서 립리딩 모델은 추출된 오디오 표현을 사용하여 부족한 시각적 정보를 보완할 수 있습니다. 둘째, MVM은 시각적 특징을 저장하기 위한 다중 헤드 키 메모리와 오디오 지식을 저장하기 위한 하나의 값 메모리를 포함하며, 이는 동음이의어를 구분하도록 설계되었습니다. 다중 헤드 키 메모리를 통해 MVM은 메모리에서 가능한 후보 오디오 특징들을 추출할 수 있으며, 이는 입력된 입술 움직임으로부터 어떤 발음을 나타낼 수 있는지 고려할 수 있도록 합니다. 이는 또한 비시멘(viseme)-폰emen(phoneme) 매핑의 일대다(one-to-many) 관계를 명시적으로 구현하는 것으로 볼 수 있습니다. 더욱이, MVM은 여러 시간적 수준에서 사용되어 메모리를 검색할 때 맥락을 고려하고 동음이의어를 구분합니다. 광범위한 실험 결과가 제안된 방법이 립리딩 및 동음이의어 구분에 있어 효과적임을 확인해주고 있습니다.