Make-A-Video: 텍스트-비디오 데이터 없이 텍스트에서 비디오 생성

우리는 텍스트-이미지(T2I) 생성 분야에서 최근 촉진된 기술 발전을 직접 텍스트-비디오(T2V) 생성으로 확장하는 방법론인 Make-A-Video를 제안한다. 우리의 통찰은 간단하다. 텍스트-이미지 쌍 데이터를 통해 세상이 어떤 모습인지, 그리고 어떻게 묘사되는지를 학습하고, 비감독 방식의 비디오 영상 데이터를 통해 세상이 어떻게 움직이는지를 학습하는 것이다. Make-A-Video는 다음과 같은 세 가지 장점을 갖는다: (1) T2V 모델의 학습 속도를 가속화할 수 있으며(시각적 및 다중모달 표현을 처음부터 학습할 필요가 없음), (2) 텍스트-비디오 쌍 데이터가 필요하지 않으며, (3) 생성된 비디오는 현재의 이미지 생성 모델들이 지닌 광범위한 다양성(미적 표현, 환상적인 묘사 등)을 그대로 계승한다. 우리는 기존의 T2I 모델을 기반으로 하되, 새로운 효과적인 공간-시간 모듈을 도입하여 간단하면서도 효과적인 방법을 설계하였다. 먼저, 전체 시간적 U-Net 및 어텐션 텐서를 공간과 시간 차원으로 분해하고 각각을 근사화한다. 다음으로, 영상 디코더, 보간 모델, 그리고 두 개의 초해상도 모델을 포함하는 공간-시간 파이프라인을 설계하여 고해상도 및 고프레임레이트 비디오를 생성할 수 있도록 하였다. 이 파이프라인은 T2V 외에도 다양한 응용 분야에 활용 가능하다. 품질, 공간적 및 시간적 해상도, 텍스트에 대한 충실도 측면에서 Make-A-Video는 정성적·정량적 평가 모두에서 텍스트-비디오 생성 분야의 새로운 최고 수준(SOTA, State-of-the-Art)을 확립하였다.