2달 전

Video-LaVIT: 통합된 비디오-언어 사전학습을 위한 분리된 시각-모션 토큰화

Yang Jin; Zhicheng Sun; Kun Xu; Kun Xu; Liwei Chen; Hao Jiang; Quzhe Huang; Chengru Song; Yuliang Liu; Di Zhang; Yang Song; Kun Gai; Yadong Mu
Video-LaVIT: 통합된 비디오-언어 사전학습을 위한 분리된 시각-모션 토큰화
초록

최근 다중모달 대형 언어 모델(LLM)의 발전에 따라, 이미지-텍스트 데이터에서 더 정보가 풍부한 실제 비디오로 이들의 확장을 위한 관심이 증가하고 있습니다. 정적 이미지와 달리, 비디오는 그 공간-시간 동역학을 모델링하기 때문에 효과적인 대규모 사전 학습에 고유한 도전 과제를 제시합니다. 본 논문에서는 비디오-언어 사전 학습에서 이러한 한계를 극복하기 위해 각 비디오를 키프레임과 시간적 움직임으로 표현하는 효율적인 비디오 분해 방법을 제안합니다. 이를 통해 시각적 및 시간적 정보를 몇 개의 토큰으로 이산화하는 잘 설계된 토크나이저를 사용하여 비디오, 이미지, 텍스트의 통합 생성 사전 학습을 가능하게 합니다. 추론 단계에서는 LLM에서 생성된 토큰이 원래 연속적인 픽셀 공간으로 신중히 복원되어 다양한 비디오 콘텐츠를 생성합니다. 본 연구에서 제안한 프레임워크는 이미지 및 비디오 콘텐츠 이해와 생성 능력을 모두 갖추고 있으며, 13개의 다중모달 벤치마크에서 경쟁력 있는 성능을 보여주고 있습니다. 우리의 코드와 모델은 https://video-lavit.github.io 에서 확인할 수 있습니다.