10일 전

다중모달 연상 연결을 위한 메모리 기반 접근: 얼굴 영상에서 음성 소리 재현

{Yong Man Ro, Se Jin Park, Joanna Hong, Minsu Kim}
다중모달 연상 연결을 위한 메모리 기반 접근: 얼굴 영상에서 음성 소리 재현
초록

본 논문에서는 단일 모달 입력 조건하에서도 음성과 시각 정보를 모두 활용할 수 있는 새로운 음성-시각 다중 모달 연결 프레임워크를 제안한다. 제안하는 방법은 원본 모달(즉, 시각 정보)과 목표 모달(즉, 음성 정보)의 표현을 저장하는 메모리 네트워크를 활용한다. 여기서 원본 모달 표현은 입력으로 주어지는 정보이며, 목표 모달 표현은 메모리 네트워크를 통해 얻고자 하는 정보이다. 이후 두 메모리 간의 상호관계를 고려하여 원본 메모리와 목표 메모리 사이에 연관성 기반의 다리(associative bridge)를 구축한다. 이 연관성 기반 다리를 통해 원본 메모리와 목표 메모리 간의 상호관계를 학습함으로써, 원본 모달 입력만으로도 메모리 네트워크 내부에서 목표 모달 표현을 효과적으로 추출할 수 있으며, 이는 후속 작업에 풍부한 정보를 제공한다. 제안된 프레임워크는 입술 읽기(lip reading) 및 침묵 영상에서의 음성 재구성(speech reconstruction) 두 가지 작업에 적용하였다. 연관성 기반 다리와 모달 특화 메모리의 도입을 통해 각 작업은 회상된 음성 맥락 정보를 풍부하게 통합하여 최신 기술(SOTA) 수준의 성능을 달성하였다. 또한, 제안된 연관성 기반 다리가 원본 메모리와 목표 메모리 간에 적절한 관계를 형성함을 실험적으로 검증하였다.