11일 전

시각 기반 자기지도 학습을 통한 음성 표현 학습

Abhinav Shukla, Konstantinos Vougioukas, Pingchuan Ma, Stavros Petridis, Maja Pantic
시각 기반 자기지도 학습을 통한 음성 표현 학습
초록

최근 들어 자기지도 학습(자기지도 표현 학습, self-supervised representation learning)은 음성 및 시각 모달리티 모두에 걸쳐 큰 연구 관심을 끌고 있다. 그러나 대부분의 기존 연구는 특정 모달리티나 특징에 국한되어 있으며, 두 모달리티 간의 상호작용을 활용하여 자기지도 표현을 학습하는 연구는 매우 제한적이다. 본 연구에서는 음성-시각 음성 인식(음성-시각 음성, audiovisual speech) 맥락에서 시각 모달리티를 통해 음성 표현을 학습하는 프레임워크를 제안한다. 우리는 주어진 음성 클립에 대응하는 정지 이미지를 애니메이션화하는 생성형 음성-시각 학습 방식을 사용하며, 생성된 영상이 실제 음성 구간의 영상과 가능한 한 유사하도록 최적화한다. 이러한 과정을 통해 음성 인코더 네트워크는 유용한 음성 표현을 학습하게 되며, 본 연구에서는 감정 인식과 음성 인식 태스크에서 이를 평가한다. 실험 결과, 감정 인식에서는 최신 기준(SOTA, state-of-the-art) 성능을 달성하였고, 음성 인식에서는 경쟁적인 성능을 보였다. 이는 과거에 거의 탐색되지 않았던 새로운 자기지도 학습 방식으로서, 시각적 지도(visual supervision)를 활용하여 음성 표현을 학습할 수 있는 잠재력을 입증한다. 제안된 비지도 음성 특징은 레이블이 없는 음성-시각 음성 데이터의 거의 무한한 양을 활용할 수 있으며, 다양한 잠재적 응용 분야를 지닌다.

시각 기반 자기지도 학습을 통한 음성 표현 학습 | 최신 연구 논문 | HyperAI초신경