크로스 모달 오디오-비디오 클러스터링을 통한 자기 지도 학습

시각적 모달리티와 청각적 모달리티는 높은 상관관계를 가지고 있지만, 서로 다른 정보를 포함하고 있습니다. 이들의 강한 상관관계 덕분에 한 모달리티에서 다른 모달리티의 의미를 비교적 정확하게 예측할 수 있습니다. 그러나 본질적인 차이점 때문에, 동일 모달리티 내 학습보다는 두 모달리티 간의 학습이 비지도 학습에서 비디오와 오디오 표현을 더 효과적으로 전제 작업으로 사용할 가능성이 높습니다. 이러한 직관에 기반하여, 우리는 Cross-Modal Deep Clustering (XDC)이라는 새로운 비지도 학습 방법을 제안합니다. XDC는 한 모달리티(예: 오디오)에서의 비지도 클러스터링을 다른 모달리티(예: 비디오)의 감독 신호로 활용합니다. 이 크로스-모달 감독은 XDC가 두 모달리티 사이의 의미적 상관관계와 차이점을 활용하는 데 도움을 줍니다. 우리의 실험 결과는 XDC가 단일 모달 클러스터링과 다른 다중 모달 변형보다 우수한 성능을 보임을 확인하였습니다. XDC는 여러 비디오 및 오디오 벤치마크에서 비지도 학습 방법 중 최고의 정확도를 달성하였습니다. 특히, 대규모 미라벨 데이터에서 사전학습된 우리의 비디오 모델은 ImageNet과 Kinetics에서 완전히 지도된 사전학습으로 얻은 동일한 모델보다 HMDB51과 UCF101에서 행동 인식 측면에서 크게 우수한 성능을 보였습니다. 우리所知에 따르면, XDC는 같은 아키텍처에서 행동 인식에 있어 대규모 완전 지도 사전학습보다 우수한 성능을 내는 첫 번째 비지도 학습 방법입니다.注:最后一句中的“我们所知”在韩文中通常会翻译为“우리가 알고 있는 것”或“우리의 지식에 따르면”。这里选择了一个更为简洁的表达方式“우리所知에 따르면”,但为了更符合韩语习惯,建议修改为:"우리의 지식에 따르면, XDC는 같은 아키텍처에서 행동 인식에 있어 대규모 완전 지도 사전학습보다 우수한 성능을 내는 첫 번째 비지도 학습 방법입니다."