7일 전
MAGVIT: 마스킹된 생성형 비디오 트랜스포머
Lijun Yu, Yong Cheng, Kihyuk Sohn, José Lezama, Han Zhang, Huiwen Chang, Alexander G. Hauptmann, Ming-Hsuan Yang, Yuan Hao, Irfan Essa, Lu Jiang

초록
다양한 비디오 합성 작업을 하나의 모델로 해결하기 위해 우리는 MAsked Generative VIdeo Transformer(MAGVIT)를 제안한다. MAGVIT은 비디오를 공간-시간 시각 토큰으로 정량화하기 위한 3D 토크나이저를 도입하고, 마스킹된 비디오 토큰 모델링을 위한 임베딩 방법을 제안하여 다중 작업 학습을 촉진한다. 광범위한 실험을 통해 MAGVIT의 품질, 효율성, 유연성을 입증하였다. 실험 결과는 다음과 같다. (i) MAGVIT은 최신 기술 대비 유리한 성능을 보이며, 도전적인 Kinetics-600을 포함한 세 가지 비디오 생성 벤치마크에서 최고의 공개된 FVD(Frechet Video Distance) 성능을 달성하였다. (ii) 확산 모델 대비 inference 시간에서 두 자릿수 이상, 자재귀 모델 대비 60배 빠른 성능을 기록하였다. (iii) 단일 MAGVIT 모델이 10가지 다양한 생성 작업을 지원하며, 다양한 시각적 도메인의 비디오에 대해 일반화 가능하다. 소스 코드와 학습된 모델은 공개될 예정이며, https://magvit.cs.cmu.edu 에서 확인할 수 있다.