2달 전

노출된 교사: 훈련 효율적인 비디오 기초 모델로의 접근

Kunchang Li; Yali Wang; Yizhuo Li; Yi Wang; Yinan He; Limin Wang; Yu Qiao
노출된 교사: 훈련 효율적인 비디오 기초 모델로의 접근
초록

비디오 기초 모델(VFMs)은 높은 계산 비용과 데이터 부족으로 인해 제한적으로 연구되어 왔습니다. 이전의 VFM들은 이미지 기초 모델(IFMs)에 의존하였는데, 이는 비디오 영역으로의 전이에 어려움을 겪고 있습니다. 비디오MAE는 제한된 데이터로 강건한 ViT를 학습시켰지만, 저수준 재구성은 수렴 문제를 일으키며 고수준 다중모달 정렬과 충돌합니다. 본 논문에서는 시간 감응형 VFM의 효율적인 학습 방법을 제안하며, 기존 방법들의 장점을 통합합니다. 데이터 효율성을 높이기 위해 대부분의 저 의미론적 비디오 토큰을 마스킹하지만, 선택적으로 IFM과 미마스킹된 토큰들을 정렬시키는 방식을 사용합니다. 이를 통해 의미론적 안내를 제공하여 더 빠른 수렴과 다중모달 친화성을 실현할 수 있습니다. 점진적인 사전 학습 프레임워크를 통해 본 모델은 장면 관련, 시간 관련 및 복잡한 비디오-언어 이해 등 다양한 작업을 처리할 수 있습니다. 공개 소스만을 사용하여 32개의 A100 GPU에서 6일 동안 사전 학습한 결과, 우리가 처음부터 구축한 ViT-L/16은 다양한 비디오 작업에서 최신 성능을 달성하였습니다. 코드와 모델은 https://github.com/OpenGVLab/unmasked_teacher 에서 공개될 예정입니다.