17일 전

시각적 음성 기억을 통한 유사한 음성으로 말 재구성

{Yong Man Ro, Se Jin Park, Minsu Kim, Joanna Hong}
초록

이 연구의 목적은 말하는 사람에 따라 다르게, 그리고 말하는 사람에 관계없이 모두 가능한 방식으로 침묵한 영상으로부터 음성 복원을 수행하는 것이다. 기존의 연구들이 주로 말하는 사람에 따라 설정된 환경에 국한되어 있었던 것과 달리, 본 연구에서는 다양한 말하는 사람, 심지어 미리 보지 않은 말하는 사람에 대해서도 적절한 음성을 생성할 수 있도록 핵심 청각 정보를 복원하는 '시각적 음성 메모리(Visual Voice memory)'를 제안한다. 제안된 메모리는 입력된 얼굴 운동에 대응하는 추가적인 청각 정보를 받아들이며, 주어진 입력 시각 특징에 의해 다시 불러올 수 있는 청각적 맥락을 저장한다. 구체적으로, 시각적 음성 메모리는 값(값 메모리 슬롯)과 키(키 메모리 슬롯) 메모리 슬롯을 포함하며, 값 메모리 슬롯은 음성 특징을 저장하고, 키 메모리 슬롯은 저장된 음성 특징과 동일한 위치에 있는 시각 특징을 저장한다. 각 메모리가 적절한 특징을 저장하도록 안내함으로써, 모델은 충분히 정확한 음성을 생성할 수 있다. 따라서 본 방법은 학습 시에는 영상과 음성 정보를 모두 활용하지만, 추론 시에는 추가적인 청각 입력이 필요하지 않다. 본 연구의 주요 기여는 다음과 같다: (1) 시각적 특징을 보완하는 풍부한 음성 정보를 제공하는 시각적 음성 메모리를 제안하여 침묵 영상에서 고품질의 음성을 생성할 수 있도록 했으며, (2) 음성 특징과 해당 시각 특징을 기억함으로써 다중 말하는 사람 및 미리 보지 않은 말하는 사람에 대한 학습이 가능하게 했다. 제안된 프레임워크는 GRID 및 Lip2Wav 데이터셋에서 검증되었으며, 다중 말하는 사람 및 말하는 사람에 독립적인 설정 모두에서 기존 방법들을 능가하는 성능을 보였다. 또한 시각적 음성 메모리가 음성 복원에 유의미한 정보를 포함하고 있음을 실험적으로 입증하였다.