매직비디오: 잠재 확산 모델을 활용한 효율적인 비디오 생성

우리는 잠재 확산 모델 기반의 효율적인 텍스트-to-비디오 생성 프레임워크인 MagicVideo를 제안한다. MagicVideo는 주어진 텍스트 설명과 일치하는 부드러운 비디오 클립을 생성할 수 있다. 혁신적이고 효율적인 3D U-Net 설계 및 저차원 공간에서 비디오 분포를 모델링함으로써, MagicVideo는 단일 GPU 카드에서 256x256 해상도의 비디오 클립을 생성할 수 있으며, FLOPs 기준으로 기존의 비디오 확산 모델(VDM)보다 약 64배 적은 계산량을 필요로 한다. 구체적으로, 기존 연구들이 RGB 공간에서 직접 비디오 모델을 훈련하는 반면, 우리는 사전 학습된 VAE를 사용하여 비디오 클립을 저차원 잠재 공간으로 매핑하고, 확산 모델을 통해 비디오의 잠재 코드 분포를 학습한다. 또한, 이미지 작업에서 훈련된 U-Net 디노이저를 비디오 데이터에 적합하게 조정하기 위해 두 가지 새로운 설계를 도입한다: 이미지에서 비디오로의 분포 조정을 위한 프레임 단위 경량 어댑터와, 프레임 간 시간적 의존성을 포착하기 위한 방향성 있는 시간 주의 모듈. 이를 통해 텍스트-이미지 모델에서 학습된 컨볼루션 연산자의 정보성 있는 가중치를 활용하여 비디오 훈련을 가속화할 수 있다. 생성된 비디오에서 발생하는 픽셀 색조 번짐 현상을 완화하기 위해, 더 나은 RGB 재구성 성능을 위한 새로운 VideoVAE 오토인코더도 제안한다. 광범위한 실험을 수행한 결과, MagicVideo가 현실적이거나 상상 속의 콘텐츠를 포함한 고품질 비디오 클립을 생성할 수 있음을 입증하였다. 더 많은 예시는 \url{https://magicvideo.github.io/#}를 참조하기 바란다.