ES3: 강건한 음성-시각 음성 표현을 위한 진화하는 자기지도 학습

우리는 레이블이 없는 대화하는 얼굴 영상에서 강건한 음성-시각적 음성 표현을 자율 학습하기 위한 새로운 전략 ES3을 제안한다. 최근의 많은 접근법은 음성 모달리티만을 활용하여 음성과 영상 간에 공유되는 정보를 포착하는 데 주로 의존하지만, 본 연구에서는 음성-시각 모달리티 간의 본질적인 비대칭성을 해결하기 위해, 공유된 정보(공통 정보), 각 모달리티 고유의 정보, 그리고 상호보완적인 정보(시너지 정보)를 동시에 획득하는 문제 설정을 제안한다. 이러한 설정을 바탕으로, 단일 모달(음성 및 시각)과 이중 모달(음성-시각) 음성 표현 모두에 강건한 연합 표현을 점진적으로 구축하는 새로운 '진화형(evolutionary)' 전략을 제안한다. 먼저, 학습이 비교적 쉬운 음성 모달리티를 활용하여 음성 고유 정보와 공유 정보를 포착함으로써 음성 및 시각 표현을 초기화한다. 다음으로, 영상 고유의 음성 정보를 포함시키고, 이전에 획득한 공유 지식을 기반으로 음성-시각 표현을 부트스트랩한다. 마지막으로, 상호보완적인 정보를 포함한 전체 음성-시각 음성 정보를 최대화함으로써 강건하고 포괄적인 표현을 얻는다. ES3는 간단한 시아메스(Siamese) 아키텍처로 구현되었으며, 영어 기준 데이터셋과 새로 제안한 대규모 중국어 데이터셋에서의 실험을 통해 그 유효성을 입증하였다. 특히 LRS2-BBC 데이터셋에서, 본 연구의 최소 규모 모델은 파라미터 수가 최신 기술(SoTA) 모델의 1/2에 불과하고, 레이블이 없는 데이터량도 1/8(223시간)에 불과함에도 불구하고, 동등한 성능을 달성하였다.