8일 전

Make-A-Video: 텍스트-비디오 데이터 없이 텍스트에서 비디오 생성

Uriel Singer, Adam Polyak, Thomas Hayes, Xi Yin, Jie An, Songyang Zhang, Qiyuan Hu, Harry Yang, Oron Ashual, Oran Gafni, Devi Parikh, Sonal Gupta, Yaniv Taigman
Make-A-Video: 텍스트-비디오 데이터 없이 텍스트에서 비디오 생성
초록

우리는 텍스트-이미지(T2I) 생성 분야에서 최근 촉진된 기술 발전을 직접 텍스트-비디오(T2V) 생성으로 확장하는 방법론인 Make-A-Video를 제안한다. 우리의 통찰은 간단하다. 텍스트-이미지 쌍 데이터를 통해 세상이 어떤 모습인지, 그리고 어떻게 묘사되는지를 학습하고, 비감독 방식의 비디오 영상 데이터를 통해 세상이 어떻게 움직이는지를 학습하는 것이다. Make-A-Video는 다음과 같은 세 가지 장점을 갖는다: (1) T2V 모델의 학습 속도를 가속화할 수 있으며(시각적 및 다중모달 표현을 처음부터 학습할 필요가 없음), (2) 텍스트-비디오 쌍 데이터가 필요하지 않으며, (3) 생성된 비디오는 현재의 이미지 생성 모델들이 지닌 광범위한 다양성(미적 표현, 환상적인 묘사 등)을 그대로 계승한다. 우리는 기존의 T2I 모델을 기반으로 하되, 새로운 효과적인 공간-시간 모듈을 도입하여 간단하면서도 효과적인 방법을 설계하였다. 먼저, 전체 시간적 U-Net 및 어텐션 텐서를 공간과 시간 차원으로 분해하고 각각을 근사화한다. 다음으로, 영상 디코더, 보간 모델, 그리고 두 개의 초해상도 모델을 포함하는 공간-시간 파이프라인을 설계하여 고해상도 및 고프레임레이트 비디오를 생성할 수 있도록 하였다. 이 파이프라인은 T2V 외에도 다양한 응용 분야에 활용 가능하다. 품질, 공간적 및 시간적 해상도, 텍스트에 대한 충실도 측면에서 Make-A-Video는 정성적·정량적 평가 모두에서 텍스트-비디오 생성 분야의 새로운 최고 수준(SOTA, State-of-the-Art)을 확립하였다.

Make-A-Video: 텍스트-비디오 데이터 없이 텍스트에서 비디오 생성 | 최신 연구 논문 | HyperAI초신경