2달 전
다중 모드 클러스터링 네트워크를 이용한 비지도 비디오에서의 자기 지도 학습
Chen, Brian ; Rouditchenko, Andrew ; Duarte, Kevin ; Kuehne, Hilde ; Thomas, Samuel ; Boggust, Angie ; Panda, Rameswar ; Kingsbury, Brian ; Feris, Rogerio ; Harwath, David ; Glass, James ; Picheny, Michael ; Chang, Shih-Fu

초록
다중 모드 자기 감독 학습은 인간의 감독 없이 대형 네트워크를 훈련시키는 것뿐만 아니라 다양한 모드 간에 데이터를 검색하고 검색할 수 있게 해주기 때문에 점점 더 주목받고 있습니다. 이 맥락에서 본 논문은 다른 모드 간에 표현을 공유하는 것뿐만 아니라 의미적으로 유사한 인스턴스의 그룹화를 강제하는 공통 다중 모드 임베딩 공간을 학습하는 자기 감독 훈련 프레임워크를 제안합니다. 이를 위해, 우리는 훈련 파이프라인에서 다중 모드 클러스터링 단계를 추가하여 인스턴스 레벨 대조 학습의 개념을 확장하여 모드 간의 의미적 유사성을 포착합니다. 결과적으로 생성된 임베딩 공간은 미리 본 적 없는 데이터셋과 다른 도메인에서도 모든 모드 간에 샘플을 검색할 수 있게 합니다. 우리의 접근 방식을 평가하기 위해, 우리는 HowTo100M 데이터셋에서 모델을 훈련시키고 두 가지 어려운 도메인, 즉 텍스트-비디오 검색 및 시간적 행동 위치 결정에서 제로샷 검색 능력을 평가하여 네 개의 다른 데이터셋에서 최신 결과를 보여줍니다.