2달 전
대조적 오디오-비주얼 마스킹 오토인코더
Yuan Gong; Andrew Rouditchenko; Alexander H. Liu; David Harwath; Leonid Karlinsky; Hilde Kuehne; James Glass

초록
본 논문에서는 최근의 마스킹 오토인코더(Masked Auto-Encoder, MAE) 모델을 단일 모달에서 오디오-비주얼 다중 모달로 확장하였습니다. 그 다음으로, 대조 학습과 마스킹 데이터 모델링이라는 두 가지 주요 자기 지도 학습 프레임워크를 결합하여 공동으로 조정된 오디오-비주얼 표현을 학습할 수 있는 대조 오디오-비주얼 마스킹 오토인코더(Contrastive Audio-Visual Masked Auto-Encoder, CAV-MAE)를 제안합니다. 실험 결과, 대조 오디오-비주얼 대응 학습 목표는 오디오-비주얼 검색 작업을 수행할 뿐만 아니라 더 나은 공동 표현을 학습하는 데에도 도움이 됨을 보여줍니다. 그 결과, 본 연구의 완전히 자기 지도로 사전 훈련된 CAV-MAE는 VGGSound에서 새로운 최고 수준(SOTA) 정확도 65.9%를 달성하였으며, 오디오-비주얼 이벤트 분류 작업에서 이전에 가장 우수한 감독 훈련 모델과 유사한 성능을 보였습니다. 코드와 사전 훈련된 모델은 https://github.com/yuangongnd/cav-mae에서 확인하실 수 있습니다.