잠재변수를 정렬하라: 잠재 확산 모델을 활용한 고해상도 비디오 합성

잠재 확산 모델(Latent Diffusion Models, LDMs)은 압축된 저차원 잠재 공간에서 확산 모델을 훈련함으로써 높은 품질의 이미지 합성 가능성을 유지하면서도 과도한 계산 자원을 요구하지 않는다. 본 연구에서는 이러한 LDM 패러다임을 특히 자원 소모가 큰 고해상도 영상 생성에 적용한다. 먼저 이미지 데이터만을 사용해 LDM을 사전 훈련한 후, 잠재 공간 확산 모델에 시계열 차원을 도입하고 인코딩된 이미지 시퀀스(즉, 영상)에 대해 미세 조정(fine-tuning)함으로써 이미지 생성기를 영상 생성기로 전환한다. 마찬가지로, 확산 모델의 업샘플러(upsampler)를 시계열적으로 정렬함으로써 일관된 시계열 영상 초해상도화 모델로 변환할 수 있다. 본 연구는 두 가지 실용적인 응용 분야에 초점을 맞춘다: 실제 도로 환경에서의 운전 데이터 시뮬레이션 및 텍스트-영상 모델링을 통한 창의적 콘텐츠 생성. 특히, 해상도 512×1024의 실제 운전 영상에 대해 본 영상 LDM을 검증하여 최신 기술 수준의 성능을 달성하였다. 또한 본 접근법은 사전 훈련된 이미지용 LDM 모델을 즉시 활용할 수 있다는 장점이 있다. 이 경우, 시계열 정렬 모델만을 추가로 훈련하면 되므로, 공개된 최첨단 텍스트-이미지 LDM인 Stable Diffusion을 해상도 최대 1280×2048까지 지원하는 효율적이고 표현력 있는 텍스트-영상 생성 모델로 변환할 수 있다. 또한, 이러한 방식으로 훈련된 시계열 레이어가 다양한 미세 조정된 텍스트-이미지 LDM에 일반화됨을 보여주며, 이를 기반으로 개인화된 텍스트-영상 생성에 대한 최초의 결과를 제시한다. 이는 향후 콘텐츠 창작 분야에 새로운 가능성을 열어준다. 프로젝트 페이지: https://research.nvidia.com/labs/toronto-ai/VideoLDM/