
초록
우리는 다음과 같은 질문을 고려합니다: 대량의 라벨이 붙지 않은 동영상을 보고 듣는 것으로부터 무엇을 배울 수 있을까요? 동영상 자체에는 아직 활용되지 않았지만 귀중한 정보 원천이 포함되어 있습니다. 이는 시각적 스트림과 오디오 스트림 간의 상호 관계를 의미하며, 우리는 이를 활용하는 새로운 "오디오-시각적 상호 관계(Audio-Visual Correspondence)" 학습 과제를 소개합니다. 라벨이 붙지 않은 원시 비디오만을 사용하여 시각적 및 오디오 네트워크를 처음부터 훈련시키는 것이 이 과제를 성공적으로 해결할 수 있음을 보여주며, 더욱 흥미롭게도 좋은 시각적 및 오디오 표현을 생성함을 확인하였습니다. 이러한 특징들은 두 개의 사운드 분류 벤치마크에서 새로운 최고 수준(state-of-the-art)을 달성하였으며, ImageNet 분류에서도 최고 수준의 자기 감독(self-supervised) 접근법과 맞먹는 성능을 보였습니다. 또한 네트워크가 두 모달에서 객체를 정확히 위치 결정하고 세부적인 인식 작업을 수행할 수 있음을 입증하였습니다.