
초록
대규모 비라벨 동영상 데이터에서 동영상 표현을 학습하기 위한 새로운 방법을 제시합니다. 이상적으로 이 표현은 일반적이며 전이 가능하여, 행동 인식 및 제로 샷 또는 소수 샷 학습과 같은 새로운 작업에 직접 사용될 수 있습니다. 우리는 비지도 표현 학습을 다중 모달, 다중 작업 학습 문제로 정식화하여, 다양한 모달 간에 공유되는 표현을 증류를 통해 얻습니다. 또한 진화 탐색 알고리즘을 사용하여 많은 (자기 지도) 작업과 모달을 포착하는 손실 함수의 최적 조합을 자동으로 찾는 손실 함수 진화라는 개념을 도입합니다. 세 번째로, Zipf's 법칙을 기반으로 대규모 비라벨 데이터셋에 대한 분포 일치를 사전 제약 조건으로 사용하는 비지도 표현 평가 메트릭을 제안합니다. 이 비지도 제약 조건은 어떠한 라벨링도 안내하지 않지만, 약간의 지도를 받은 작업 특异性 메트릭과 유사한 결과를 생성합니다. 제안된 비지도 표현 학습은 단일 RGB 네트워크를 생성하며, 이전 방법들을 능가합니다. 특히 대규모 완전 라벨링된 동영상 데이터셋을 제외하고는 여러 라벨 기반 방법(예: ImageNet)보다도 더 효과적입니다.