11일 전
시각 기반 자기지도 학습을 통한 음성 표현 학습
Abhinav Shukla, Konstantinos Vougioukas, Pingchuan Ma, Stavros Petridis, Maja Pantic

초록
최근 들어 자기지도 학습(자기지도 표현 학습, self-supervised representation learning)은 음성 및 시각 모달리티 모두에 걸쳐 큰 연구 관심을 끌고 있다. 그러나 대부분의 기존 연구는 특정 모달리티나 특징에 국한되어 있으며, 두 모달리티 간의 상호작용을 활용하여 자기지도 표현을 학습하는 연구는 매우 제한적이다. 본 연구에서는 음성-시각 음성 인식(음성-시각 음성, audiovisual speech) 맥락에서 시각 모달리티를 통해 음성 표현을 학습하는 프레임워크를 제안한다. 우리는 주어진 음성 클립에 대응하는 정지 이미지를 애니메이션화하는 생성형 음성-시각 학습 방식을 사용하며, 생성된 영상이 실제 음성 구간의 영상과 가능한 한 유사하도록 최적화한다. 이러한 과정을 통해 음성 인코더 네트워크는 유용한 음성 표현을 학습하게 되며, 본 연구에서는 감정 인식과 음성 인식 태스크에서 이를 평가한다. 실험 결과, 감정 인식에서는 최신 기준(SOTA, state-of-the-art) 성능을 달성하였고, 음성 인식에서는 경쟁적인 성능을 보였다. 이는 과거에 거의 탐색되지 않았던 새로운 자기지도 학습 방식으로서, 시각적 지도(visual supervision)를 활용하여 음성 표현을 학습할 수 있는 잠재력을 입증한다. 제안된 비지도 음성 특징은 레이블이 없는 음성-시각 음성 데이터의 거의 무한한 양을 활용할 수 있으며, 다양한 잠재적 응용 분야를 지닌다.