2달 전

마스크된 비디오 디스틸레이션: 자기 지도 비디오 표현 학습을 위한 마스크된 특성 모델링 재고찰

Rui Wang; Dongdong Chen; Zuxuan Wu; Yinpeng Chen; Xiyang Dai; Mengchen Liu; Lu Yuan; Yu-Gang Jiang
마스크된 비디오 디스틸레이션: 자기 지도 비디오 표현 학습을 위한 마스크된 특성 모델링 재고찰
초록

마스크 시각 모델링 덕분에 비디오 표현 학습의 자기 지도 방식이 큰 발전을 이루었습니다. 그러나 기존 방법들은 원시 픽셀 RGB 값과 같은 저수준 특징을 재구성하여 표현을 처음부터 학습하는 데 초점을 맞추고 있습니다. 본 논문에서는 마스크 비디오 디스틸레이션(MVD)이라는 간단하면서도 효과적인 두 단계의 마스크 특징 모델링 프레임워크를 제안합니다. 첫 번째 단계에서는 이미지(또는 비디오) 모델을 마스크 패치의 저수준 특징을 복원함으로써 사전 훈련하고, 두 번째 단계에서는 그 결과로 얻은 특징들을 마스크 특징 모델링의 목표로 사용합니다.교사 모델 선택에 대해 살펴보면, 비디오 교사로부터 배운 학생 모델들이 시간적으로 중요한 비디오 작업에서 더 좋은 성능을 보이는 반면, 이미지 교사들은 공간적으로 중요한 비디오 작업에 대해 더 강력한 공간 표현을 전달합니다. 시각화 분석 또한 다른 교사들이 학생들에게 서로 다른 학습 패턴을 생성한다는 것을 나타냅니다. 이러한 관찰에 착안하여 우리는 MVD를 위한 공간-시간 공동 교육 방법을 설계하였습니다. 구체적으로, 마스크 특징 모델링을 통해 비디오 교사와 이미지 교사 모두로부터 학생 모델들을 디스틸레이션하였습니다.다양한 실험 결과를 통해 공간-시간 공동 교육으로 사전 훈련된 비디오 트랜스포머가 단일 교사를 통해 디스틸레이션된 모델들보다 많은 비디오 데이터셋에서 우월한 성능을 보임이 입증되었습니다. 우리의 MVD는 일반 ViT를 사용하여 이전의 감독 또는 자기 지도 방법들과 비교해 여러 어려운 비디오 다운스트림 작업에서 최고 수준의 성능을 달성했습니다. 예를 들어, ViT-Large 모델을 사용할 때, 우리의 MVD는 Kinetics-400에서 86.4%, Something-Something-v2에서 76.7%의 Top-1 정확도를 달성하며 각각 VideoMAE보다 1.2%와 2.4%씩 우월한 성능을 보였습니다. 더 큰 ViT-Huge 모델이 채택될 경우, MVD는 Something-Something-v2에서 77.3%의 Top-1 정확도와 AVA v2.2에서 41.1 mAP(median Average Precision)를 달성하여 최고 수준의 성능을 보였습니다.코드는 \url{https://github.com/ruiwang2021/mvd}에서 제공될 예정입니다.

마스크된 비디오 디스틸레이션: 자기 지도 비디오 표현 학습을 위한 마스크된 특성 모델링 재고찰 | 최신 연구 논문 | HyperAI초신경