
초록
자기 감독 학습은 라벨이 없는 모델 사전 훈련의 효과적인 방법으로, 특히 비디오 영역에서 라벨링이 비싸기 때문에 유용합니다. 현재 비디오 영역에서의 자기 감독 학습 연구들은 다양한 실험 설정을 사용하여 그 효과를 입증하고 있으며, 표준 벤치마크가 없기 때문에 접근법 간의 비교가 어려워지고 있습니다. 본 연구에서는 먼저 기존 접근법들을 동일한 조건에서 비교할 수 있는 벤치마크를 제공합니다. 다음으로, 비디오에 중요한 자기 감독 학습의 다섯 가지 측면을 연구합니다: 1) 데이터셋 크기, 2) 복잡성, 3) 데이터 분포, 4) 데이터 노이즈, 5) 특징 분석. 이 연구를 지원하기 위해, 우리는 일곱 가지 다른 방법과 일곱 가지 다른 네트워크 구조에 초점을 맞추고 다섯 개의 서로 다른 데이터셋에서 두 가지 하류 작업을 평가하는 광범위한 실험을 수행하였습니다. 본 연구에서 얻은 여러 흥미로운 통찰력을 제시하며, 이는 사전 훈련 및 대상 데이터셋의 다양한 속성, 예문 작업(pretext-tasks), 모델 구조 등에 걸쳐 있습니다. 또한 이러한 통찰력 중 일부를 실제 테스트에 적용하고, 기존 최신 접근법들이 10배 많은 사전 훈련 데이터를 사용하는 것보다 적은 양의 훈련 데이터로도 성능을 뛰어넘는 방안을 제안합니다. 우리는 이 연구가 비디오 표현 학습에서 자기 감독 예문 작업(pretext tasks)에 대한 더 나은 이해를 위한 연구자들의 길을 열 것이라고 믿습니다.