
우리는 라벨이 없는 비디오에서 의미 있는 표현을 학습하기 위한 새로운 자기 감독 프레임워크인 XKD를 제시합니다. XKD는 두 가지 가상 목표로 훈련됩니다. 첫째, 마스킹된 데이터 재구성(masked data reconstruction)을 수행하여 오디오와 시각 스트림에서 모달리티 특화 표현(modality-specific representations)을 학습합니다. 둘째, 교사-학생 설정(teacher-student setup)을 통해 두 모달리티 간에 상호 보완적인 정보를 학습하기 위해 자기 감독 크로스-모달 지식 전달(self-supervised cross-modal knowledge distillation)을 수행합니다. 우리는 오디오와 시각 모달리티 간의 도메인 차이(domain discrepancy)를 해결하여 효과적인 크로스-모달 지식 전달을 가능하게 하는 새로운 도메인 정렬 전략(domain alignment strategy)을 소개합니다. 또한, 오디오와 시각 스트림 모두를 처리할 수 있는 일반 목적 네트워크를 개발하기 위해, 다른 오디오 및 시각 작업에 대해 동일한 사전 훈련된 백본(pretrained backbone)을 사용하는 모달리티 무관 변형(modality-agnostic variants)의 XKD를 소개합니다.우리가 제안한 크로스-모달 지식 전달은 UCF101, HMDB51, Kinetics400 데이터셋에서 비디오 행동 분류(video action classification) 성능을 8%에서 14%까지 향상시키며, Kinetics-Sound 데이터셋에서는 다중 모달 행동 분류(multimodal action classification) 성능을 5.5% 향상시킵니다. XKD는 ESC50 데이터셋에서 소리 분류(sound classification) 성능이 최고 수준으로, top-1 정확도가 96.5%를 달성하였습니다.