2달 전

VideoMAE: 마스크된 오토인코더는 자기 지도 학습을 위한 데이터 효율적인 학습자입니다.

Zhan Tong; Yibing Song; Jue Wang; Limin Wang
VideoMAE: 마스크된 오토인코더는 자기 지도 학습을 위한 데이터 효율적인 학습자입니다.
초록

대규모 데이터셋에서 비디오 트랜스포머를 사전 학습하는 것이 일반적으로 상대적으로 작은 데이터셋에서 최상의 성능을 달성하기 위해 필요합니다. 본 논문에서는 비디오 마스크 오토인코더(VideoMAE)가 자기 지도 비디오 사전 학습(SSVP)에 있어 데이터 효율적인 학습자임을 보여줍니다. 우리는 최근의 ImageMAE에서 영감을 받아 매우 높은 비율로 맞춤형 비디오 튜브 마스킹을 제안합니다. 이 간단한 설계는 비디오 재구성을 더 어려운 자기 지도 작업으로 만들어, 이 사전 학습 과정 동안 더 효과적인 비디오 표현을 추출하도록 장려합니다. 우리는 SSVP에 대해 세 가지 중요한 결과를 얻었습니다: (1) 매우 높은 마스킹 비율(즉, 90%~95%)에서도 VideoMAE는 여전히 우수한 성능을 보입니다. 시간적 중복 비디오 콘텐츠는 이미지보다 더 높은 마스킹 비율을 가능하게 합니다. (2) VideoMAE는 추가 데이터를 사용하지 않고도 매우 작은 데이터셋(즉, 약 3천~4천 개의 비디오)에서 인상적인 결과를 달성합니다. (3) VideoMAE는 SSVP에 있어 데이터 품질이 데이터 양보다 더 중요함을 보여줍니다. 사전 학습과 대상 데이터셋 사이의 도메인 시프트는 중요한 문제입니다. 특히, 우리의 VideoMAE는 기본 ViT를 사용하여 추가 데이터 없이 Kinetics-400에서 87.4%, Something-Something V2에서 75.4%, UCF101에서 91.3%, HMDB51에서 62.6%의 정확도를 달성하였습니다. 코드는 https://github.com/MCG-NJU/VideoMAE 에서 확인할 수 있습니다.

VideoMAE: 마스크된 오토인코더는 자기 지도 학습을 위한 데이터 효율적인 학습자입니다. | 최신 연구 논문 | HyperAI초신경