VideoMoCo: 시간적 적대적 예제를 활용한 대조적 비디오 표현 학습

MoCo는 비지도 이미지 표현 학습에 효과적이다. 본 논문에서는 비지도 비디오 표현 학습을 위한 VideoMoCo를 제안한다. 입력 샘플로 비디오 시퀀스를 제공받아 MoCo의 시간적 특징 표현을 두 가지 관점에서 개선한다. 첫째, 입력 샘플에서 시간적으로 여러 프레임을 제거하는 생성기(Generator)를 도입한다. 이후 판별기(Discriminator)는 프레임 제거 여부에 관계없이 유사한 특징 표현을 인코딩하도록 학습된다. 적응형으로 adversarial 학습의 반복 과정 동안 서로 다른 프레임을 제거함으로써, 입력 샘플을 증강하여 시간적으로 강건한 인코더를 학습한다. 둘째, 대조 손실을 계산할 때 메모리 큐 내 키(Key)의 시간적 감쇠(temporal decay)를 모델링한다. 모멘텀 인코더는 키가 큐에 삽입된 후 업데이트되므로, 현재 입력 샘플을 사용하여 대조 학습을 수행할 때 해당 키들의 표현 능력이 저하된다. 이러한 저하 현상을 시간적 감쇠를 통해 반영하여, 입력 샘플이 큐 내 최근 키들에 더 주목하도록 유도한다. 결과적으로, 우리는 사전 설정된 사전 작업(pretext task)을 경험적으로 설계하지 않고도 MoCo를 비디오 표현 학습에 적응시켰다. 인코더의 시간적 강건성 강화와 키의 시간적 감쇠 모델링을 통해, VideoMoCo는 대조 학습 기반으로 MoCo의 시간적 성능을 개선한다. UCF101 및 HMDB51을 포함한 벤치마크 데이터셋에서의 실험 결과, VideoMoCo가 최신 기술 수준의 비디오 표현 학습 방법임을 입증하였다.