2달 전
InternVideo: 생성적 및 판별적 학습을 통한 일반 비디오 기초 모델
Yi Wang; Kunchang Li; Yizhuo Li; Yinan He; Bingkun Huang; Zhiyu Zhao; Hongjie Zhang; Jilan Xu; Yi Liu; Zun Wang; Sen Xing; Guo Chen; Junting Pan; Jiashuo Yu; Yali Wang; Limin Wang; Yu Qiao

초록
최근 기초 모델이 컴퓨터 비전 분야의 다양한 하위 작업에서 뛰어난 성능을 보여주고 있습니다. 그러나 대부분의 기존 비전 기초 모델은 단순히 이미지 수준의 사전 학습과 적응에 초점을 맞추고 있어 동적이고 복잡한 비디오 수준의 이해 작업에는 제한적이었습니다. 이러한 격차를 메우기 위해, 우리는 생성적 및 판별적 자기 지도 비디오 학습을 활용하여 일반적인 비디오 기초 모델인 InternVideo를 제시합니다. 구체적으로, InternVideo는 마스킹된 비디오 모델링과 비디오-언어 대조 학습을 사전 학습 목표로 효율적으로 탐색하며, 이 두 개의 보완적인 프레임워크의 비디오 표현을 학습 가능한 방식으로 선택적으로 조정하여 다양한 비디오 응용 프로그램을 향상시킵니다. 특별한 장치 없이도, InternVideo는 동영상 행동 인식/검출, 동영상-언어 정렬, 오픈 월드 동영상 응용 등 광범위한 작업에 걸친 39개의 동영상 데이터셋에서 최고 수준의 성능을 달성했습니다. 특히, 우리 방법은 어려운 Kinetics-400 및 Something-Something V2 벤치마크에서 각각 91.1%와 77.2%의 상위 1등급 정확도를 얻을 수 있었습니다. 이러한 모든 결과는 우리의 InternVideo가 비디오 이해에 대한 일반성을 효과적으로 입증하고 있습니다. 코드는 https://github.com/OpenGVLab/InternVideo 에 공개될 예정입니다.