3달 전

비디오 유도 시각 불변성의 자기지도 학습

Michael Tschannen, Josip Djolonga, Marvin Ritter, Aravindh Mahendran, Xiaohua Zhai, Neil Houlsby, Sylvain Gelly, Mario Lucic
비디오 유도 시각 불변성의 자기지도 학습
초록

우리는 비디오 유도 시각 불변성(Video-Induced Visual Invariances, VIVI)을 기반으로 이식 가능한 시각 표현을 위한 자기지도 학습의 일반적인 프레임워크를 제안한다. 본 연구에서는 비디오 내에 내재된 계층적 구조를 고려하여, (i) 프레임 수준의 불변성(예: 색상 및 대비 변화에 대한 안정성), (ii) 샷/클립 수준의 불변성(예: 객체 방향 및 조명 조건 변화에 대한 내성), 그리고 (iii) 비디오 수준의 불변성(샷/클립 간 장면 간 의미적 관계)을 활용하여 통합적인 자기지도 학습 손실을 정의한다. 제안한 프레임워크의 다양한 변형을 YouTube-8M(YT8M) 데이터셋의 비디오를 이용해 학습시킨 결과, 시각 작업 적응 벤치마크(VTAB)의 19개 다양한 하류 작업에서 각 작업당 단지 1,000개의 레이블만을 사용하여 최신 기준의 자기지도 전이 학습 성과를 달성하였다. 또한, 레이블이 부여된 이미지와 본 모델을 함께 학습시키는 방법을 제시하며, ImageNet으로 사전 훈련된 ResNet-50보다 레이블 데이터를 10배 적게 사용했음에도 0.8점 높은 성능을 기록하였고, 전체 ImageNet 데이터셋을 사용한 이전 최고의 지도 학습 모델보다도 3.7점 높은 성능을 달성하였다.

비디오 유도 시각 불변성의 자기지도 학습 | 연구 논문 | HyperAI초신경