2달 전
InternVideo2: 다중 모드 비디오 이해를 위한 기반 모델 확장
Wang, Yi ; Li, Kunchang ; Li, Xinhao ; Yu, Jiashuo ; He, Yinan ; Wang, Chenting ; Chen, Guo ; Pei, Baoqi ; Yan, Ziang ; Zheng, Rongkun ; Xu, Jilan ; Wang, Zun ; Shi, Yansong ; Jiang, Tianxiang ; Li, Songze ; Zhang, Hongjie ; Huang, Yifei ; Qiao, Yu ; Wang, Yali ; Wang, Limin

초록
우리는 비디오 인식, 비디오-텍스트 작업, 그리고 비디오 중심 대화에서 최신 기술 수준의 성과를 거두는 새로운 비디오 기반 모델(ViFM) 시리즈인 InternVideo2를 소개합니다. 우리의 핵심 설계는 마스킹된 비디오 모델링, 다중 모달 대조 학습, 그리고 다음 토큰 예측을 통합하는 단계적 훈련 접근법으로, 이로써 비디오 인코더의 크기를 60억 개의 매개변수까지 확장하였습니다. 데이터 수준에서는 의미론적 세그멘테이션을 통해 비디오를 분할하고 비디오-음성-대화 자막을 생성하여 시공간 일관성을 중점적으로 고려하였습니다. 이는 비디오와 텍스트 간의 정렬을 개선합니다. 광범위한 실험을 통해 우리의 설계가 60여 개 이상의 비디오 및 오디오 작업에서 우수한 성능을 보임을 검증하였으며, 특히 다양한 비디오 관련 대화 및 장기적인 비디오 이해 벤치마크에서 다른 모델들을 능가하는 성능을 보였습니다. 이를 통해 본 모델이 더 긴 맥락에서 추론하고 이해할 수 있는 능력을 강조합니다. 코드와 모델은 https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2/ 에서 제공됩니다.