원시 데이터에서 시각적 및 청각적 음성 표현을 공동 학습하기

우리는 RAVEn(RAVEn, Robust Audio-Visual Encoder)을 소개합니다. 이는 시각적 및 청각적 음성 표현을 공동으로 학습하기 위한 자기 지도 다중 모드 접근 방식입니다. 우리의 사전 학습 목표는 마스킹된 입력을 인코딩한 후, 서서히 변화하는 모멘텀 인코더(momentum encoders)에 의해 생성된 문맥화된 대상(contextualised targets)을 예측하는 것입니다. 비디오와 오디오 간의 고유한 차이점을 기반으로, 우리 설계는 두 모드의 사전 테스크(pretext tasks)에 대해 비대칭적입니다: 청각 스트림은 시각적 및 청각적 대상을 모두 예측하지만, 시각 스트림은 청각 대상만 예측합니다.단일 사전 학습 단계에서 얻어진 시각적 및 청각적 인코더를 미세 조정(fine-tuning)할 때, 저자원 및 고자원 라벨 데이터 설정에서 강력한 결과를 관찰하였습니다. 이 단계에서는 인코더가 공동으로 훈련됩니다. 특히, RAVEn은 LRS3에서 시각적 음성 인식(VSR, Visual Speech Recognition)에 있어 모든 자기 지도 방법을 능가하며, 30시간의 라벨 데이터만 사용하여 자기 훈련(self-training)과 결합했을 때 최근 90,000시간의 비공개 데이터로 훈련된 준지도(semi-supervised) 방법보다 우수한 성능을 보였습니다. 동시에, 우리는 LRS3 저자원 설정에서 청각적 음성 인식(ASR, Auditory Speech Recognition) 및 VSR에서도 최고 수준의 결과를 달성하였습니다.우리의 연구 결과는 강력한 음성 표현을 완전히 원시 비디오와 오디오로부터 학습할 수 있음을 입증합니다. 즉, 수작업 특징(handcrafted features)에 의존하지 않고 이를 수행할 수 있다는 것입니다. 코드와 모델은 https://github.com/ahaliassos/raven에서 확인할 수 있습니다.