4달 전

대규모 자기 지도 비디오 표현 학습 분석

Akash Kumar; Ashlesha Kumar; Vibhav Vineet; Yogesh Singh Rawat
대규모 자기 지도 비디오 표현 학습 분석
초록

자기 감독 학습은 라벨이 없는 모델 사전 훈련의 효과적인 방법으로, 특히 비디오 영역에서 라벨링이 비싸기 때문에 유용합니다. 현재 비디오 영역에서의 자기 감독 학습 연구들은 다양한 실험 설정을 사용하여 그 효과를 입증하고 있으며, 표준 벤치마크가 없기 때문에 접근법 간의 비교가 어려워지고 있습니다. 본 연구에서는 먼저 기존 접근법들을 동일한 조건에서 비교할 수 있는 벤치마크를 제공합니다. 다음으로, 비디오에 중요한 자기 감독 학습의 다섯 가지 측면을 연구합니다: 1) 데이터셋 크기, 2) 복잡성, 3) 데이터 분포, 4) 데이터 노이즈, 5) 특징 분석. 이 연구를 지원하기 위해, 우리는 일곱 가지 다른 방법과 일곱 가지 다른 네트워크 구조에 초점을 맞추고 다섯 개의 서로 다른 데이터셋에서 두 가지 하류 작업을 평가하는 광범위한 실험을 수행하였습니다. 본 연구에서 얻은 여러 흥미로운 통찰력을 제시하며, 이는 사전 훈련 및 대상 데이터셋의 다양한 속성, 예문 작업(pretext-tasks), 모델 구조 등에 걸쳐 있습니다. 또한 이러한 통찰력 중 일부를 실제 테스트에 적용하고, 기존 최신 접근법들이 10배 많은 사전 훈련 데이터를 사용하는 것보다 적은 양의 훈련 데이터로도 성능을 뛰어넘는 방안을 제안합니다. 우리는 이 연구가 비디오 표현 학습에서 자기 감독 예문 작업(pretext tasks)에 대한 더 나은 이해를 위한 연구자들의 길을 열 것이라고 믿습니다.