SLIC: 반복 클러스터링을 활용한 인간 행동 비디오의 자기 지도 학습

자기 감독 학습 방법은 이미지 분류에서 종단 간 감독 학습과의 차이를 크게 좁혔습니다. 그러나 인간 행동 비디오의 경우, 외관과 운동 모두 중요한 변이 요소인 관계로 이 차이는 여전히 크습니다. 이와 같은 현상의 주요 원인 중 하나는 많은 자기 감독 대조적 학습 방법에 필요한 유사한 비디오 클립 쌍 샘플링이 현재 거짓 양성을 피하기 위해 보수적으로 이루어지고 있기 때문입니다. 일반적인 가정은 유사한 클립이 단일 비디오 내에서 시간적으로 가까운 위치에만 존재한다는 것입니다. 이로 인해 운동 유사성에 대한 충분한 예시가 부족하게 됩니다. 이를 해결하기 위해 우리는 SLIC(Spatio-Temporal Localized Iterative Clustering)라는 군집화 기반의 자기 감독 대조적 학습 방법을 제안합니다. 우리의 주요 기여는 전통적인 비디오 내 긍정 샘플링을 반복 군집화를 통해 개선하여 유사한 비디오 인스턴스를 그룹화하는 것입니다. 이렇게 하면 우리의 방법은 군집 할당으로부터 얻은 의사 라벨(pseudo-labels)을 활용하여 더 어려운 긍정 및 부정 샘플을 선택할 수 있습니다.SLIC는 UCF101 데이터셋에서 상위 1개 재현율(top-1 recall)이 15.4% 향상된 최신 비디오 검색 베이스라인을 능가하며, HMDB51 데이터셋으로 직접 전송될 때도 5.7% 향상됩니다. 행동 분류를 위한 종단 간 미세 조정(end-to-end finetuning) 시 SLIC는 UCF101에서 상위 1개 정확도(top-1 accuracy)가 83.2%(+0.8%)이고, HMDB51에서는 54.5%(+1.6%)를 달성합니다. 또한 Kinetics400에서 자기 감독 사전 학습 후 행동 분류에서 SLIC는 최신 연구 결과와 경쟁력을 갖추고 있습니다.