7일 전

Imagen Video: 확산 모델을 활용한 고해상도 비디오 생성

Jonathan Ho, William Chan, Chitwan Saharia, Jay Whang, Ruiqi Gao, Alexey Gritsenko, Diederik P. Kingma, Ben Poole, Mohammad Norouzi, David J. Fleet, Tim Salimans
Imagen Video: 확산 모델을 활용한 고해상도 비디오 생성
초록

이 연구에서는 텍스트 조건부 영상 생성 시스템인 Imagen Video를 제안한다. 이 시스템은 영상 확산 모델의 계단식 구성(카스케이드)을 기반으로 하며, 텍스트 프롬프트를 입력받아 기본 영상 생성 모델과 공간 및 시간 영역을 번갈아 적용하는 시퀀스의 영상 초해상도 모델을 사용하여 고해상도 영상을 생성한다. 본 논문에서는 고해상도 텍스트-영상 생성 모델로 시스템을 확장하는 과정을 설명하며, 특정 해상도에서 완전 컨볼루션형 시간 및 공간 초해상도 모델을 채택하는 설계 선택과, 확산 모델의 v-파라미터화(v-parameterization) 방식을 선택한 이유를 제시한다. 또한, 이전의 확산 기반 이미지 생성 연구에서 도출된 결과를 영상 생성 환경으로 확장하고 검증하였다. 마지막으로, 분류기 없는 안내(classifier-free guidance)를 활용한 점진적 다이스틸레이션(Progressive Distillation)을 영상 모델에 적용하여 고속이고 고품질의 샘플링을 실현하였다. 실험 결과, Imagen Video는 높은 사실성의 영상을 생성할 뿐만 아니라, 높은 제어 가능성과 세계 지식을 갖추고 있음을 확인하였으며, 다양한 예술 스타일의 영상 및 텍스트 애니메이션을 생성할 수 있고, 3D 객체 이해 능력까지 보유하고 있음을 입증하였다. 샘플은 https://imagen.research.google/video/ 에서 확인할 수 있다.

Imagen Video: 확산 모델을 활용한 고해상도 비디오 생성 | 최신 연구 논문 | HyperAI초신경