16일 전

LAVIE: 계단식 잠재 확산 모델을 이용한 고품질 비디오 생성

Yaohui Wang, Xinyuan Chen, Xin Ma, Shangchen Zhou, Ziqi Huang, Yi Wang, Ceyuan Yang, Yinan He, Jiashuo Yu, Peiqing Yang, Yuwei Guo, Tianxing Wu, Chenyang Si, Yuming Jiang, Cunjian Chen, Chen Change Loy, Bo Dai, Dahua Lin, Yu Qiao, Ziwei Liu
LAVIE: 계단식 잠재 확산 모델을 이용한 고품질 비디오 생성
초록

본 연구는 사전 훈련된 텍스트-이미지(T2I) 모델을 기반으로 하여 고품질의 텍스트-비디오(T2V) 생성 모델을 학습하는 것을 목표로 한다. 시각적으로 현실감 있고 시간적으로 일관성 있는 비디오를 생성하면서도, 사전 훈련된 T2I 모델이 지닌 강력한 창의적 생성 능력을 유지하는 것은 매우 바람직하지만 동시에 도전적인 과제이다. 이를 해결하기 위해 우리는 계단식 비디오 잠재 확산 모델( latent diffusion models)을 기반으로 하는 통합적인 비디오 생성 프레임워크인 LaVie를 제안한다. 이 프레임워크는 기초 T2V 모델, 시간 보간 모델, 비디오 초해상도화 모델로 구성된다. 본 연구의 핵심 통찰은 두 가지이다: 1) 간단한 시간적 자기주의(self-attention)와 회전 위치 인코딩(rotary positional encoding)의 조합이 비디오 데이터 내에 내재된 시간적 상관관계를 효과적으로 포착함을 밝혀냈다. 2) 또한, 이미지와 비디오를 함께 미세 조정(fine-tuning)하는 과정이 고품질且 창의적인 결과를 생성하는 데 결정적인 역할을 함을 실험적으로 검증하였다. LaVie의 성능을 향상시키기 위해, 품질, 다양성, 미적 매력에 중점을 두고 구성된 2,500만 개의 텍스트-비디오 쌍을 포함하는 종합적이고 다양한 비디오 데이터셋인 Vimeo25M을 제안한다. 광범위한 실험을 통해 LaVie가 정량적 및 정성적 측면에서 최첨단 성능을 달성함을 입증하였다. 더불어, 사전 훈련된 LaVie 모델이 다양한 장시간 비디오 생성 및 개인화된 비디오 합성 응용 분야에서 뛰어난 유연성을 보여줌을 보여주었다.

LAVIE: 계단식 잠재 확산 모델을 이용한 고품질 비디오 생성 | 최신 연구 논문 | HyperAI초신경