7일 전

확산 모델을 활용한 사실적인 비디오 생성

Agrim Gupta, Lijun Yu, Kihyuk Sohn, Xiuye Gu, Meera Hahn, Li Fei-Fei, Irfan Essa, Lu Jiang, José Lezama
확산 모델을 활용한 사실적인 비디오 생성
초록

우리는 확산 모델링을 통해 사진처럼 사실적인 비디오 생성을 위한 트랜스포머 기반의 접근법인 W.A.L.T.을 제안한다. 본 연구의 접근법은 두 가지 핵심 설계 결정을 포함한다. 첫째, 통합된 잠재 공간 내에서 이미지와 비디오를 공동으로 압축할 수 있도록 인과적 인코더(causal encoder)를 사용함으로써, 다양한 모달 간의 학습 및 생성이 가능해졌다. 둘째, 메모리 및 학습 효율성을 높이기 위해 공간적 및 시공간적 생성 모델링을 동시에 수행할 수 있도록 최적화된 윈도우 어텐션(attention) 아키텍처를 도입하였다. 이러한 설계 결정들을 종합적으로 적용함으로써, 분류기 자유 가이던스(classifier-free guidance)를 사용하지 않고도 기존의 비디오 생성 벤치마크(UFC-101 및 Kinetics-600)와 이미지 생성 벤치마크(ImageNet)에서 최신 기준(SOTA, state-of-the-art) 성능을 달성할 수 있었다. 마지막으로, 텍스트에서 비디오를 생성하는 작업을 위해, 기저 잠재 비디오 확산 모델과 두 개의 비디오 초해상도 확산 모델로 구성된 계단형(cascade) 구조의 세 모델을 학습하였으며, 이는 초당 8프레임, 해상도 512×896의 비디오를 생성할 수 있도록 하였다.

확산 모델을 활용한 사실적인 비디오 생성 | 최신 연구 논문 | HyperAI초신경