8일 전

고해상도 장시간 비디오 생성을 위한 잠재 변수 비디오 확산 모델

Yingqing He, Tianyu Yang, Yong Zhang, Ying Shan, Qifeng Chen
고해상도 장시간 비디오 생성을 위한 잠재 변수 비디오 확산 모델
초록

최근 AI 생성 콘텐츠에 대한 관심이 높아지고 있으나, 사진 수준의 사실적인 영상 합성은 여전히 도전 과제로 남아 있다. 기존에 GAN과 순차적 모델(autoregressive models)을 활용한 다양한 시도가 있었지만, 생성 영상의 시각적 품질과 길이 측면에서 여전히 만족스럽지 못한 실정이다. 최근 확산 모델(diffusion models)은 놀라운 성과를 보여주고 있으나, 막대한 계산 자원을 요구한다는 단점이 있다. 이를 해결하기 위해 우리는 저차원 3D 잠재 공간(latent space)을 활용한 경량 영상 확산 모델을 제안한다. 이 모델은 제한된 계산 자원 하에서도 기존 픽셀 공간 영상 확산 모델보다 훨씬 뛰어난 성능을 발휘한다. 더불어, 더 긴 영상(1,000 프레임 이상)을 생성할 수 있도록 잠재 공간 내에서 계층적 확산(hierarchical diffusion) 기법을 도입하였다. 또한 장시간 영상 생성 시 성능 저하 문제를 해결하기 위해 조건부 잠재 변동(conditional latent perturbation)과 무조건적 안내(unconditional guidance) 기법을 제안하였으며, 이는 영상 길이 연장 과정에서 누적되는 오류를 효과적으로 완화한다. 다양한 분야의 소규모 데이터셋을 대상으로 수행한 광범위한 실험 결과, 본 연구의 프레임워크는 기존 강력한 기준 모델들보다 더 사실적이고 긴 영상을 생성함을 입증하였다. 또한, 대규모 텍스트 기반 영상 생성(text-to-video generation)으로의 확장 사례를 제시함으로써 본 연구의 우수성을 추가로 입증하였다. 본 연구의 코드 및 모델은 공개될 예정이다.

고해상도 장시간 비디오 생성을 위한 잠재 변수 비디오 확산 모델 | 최신 연구 논문 | HyperAI초신경