11일 전
VideoCrafter2: 고품질 비디오 디퓨전 모델을 위한 데이터 한계 극복
Haoxin Chen, Yong Zhang, Xiaodong Cun, Menghan Xia, Xintao Wang, Chao Weng, Ying Shan

초록
텍스트-비디오 생성은 주어진 프롬프트를 기반으로 비디오를 생성하는 것을 목표로 한다. 최근 몇몇 상용 비디오 모델들이 최소한의 노이즈, 뛰어난 디테일, 높은 미학적 점수를 갖춘 자연스러운 비디오를 생성할 수 있게 되었다. 그러나 이러한 모델들은 일반 대중이 접근할 수 없는 대규모이고 철저히 필터링된 고품질 비디오 데이터셋에 의존하고 있다. 기존의 많은 연구들은 저품질의 WebVid-10M 데이터셋을 사용하여 모델을 학습하지만, 이는 모델이 WebVid-10M에 최적화되어 있어 고품질 비디오 생성에 어려움을 겪는다. 본 연구에서는 Stable Diffusion에서 확장된 비디오 모델의 학습 방식을 탐구하고, 저품질 비디오와 합성된 고품질 이미지를 활용하여 고품질 비디오 모델을 구축할 수 있는 가능성을 검토한다. 먼저, 비디오 모델의 공간 모듈과 시계열 모듈 간의 관계 및 저품질 비디오에 대한 분포 변화에 대해 분석한다. 그 결과, 모든 모듈을 전체적으로 학습하는 경우, 시계열 모듈만 학습하는 것보다 공간 모듈과 시계열 모듈 간의 결합 강도가 더 강해짐을 관찰하였다. 이 강한 결합을 바탕으로, 고품질 이미지를 사용하여 공간 모듈을 파인튜닝함으로써 운동의 왜곡 없이 분포를 고품질로 전환할 수 있었으며, 이는 일반화된 고품질 비디오 모델을 구현하는 데 성공하였다. 제안된 방법의 우수성을 검증하기 위해 다양한 평가를 수행하였으며, 특히 이미지 품질, 운동 자연스러움, 개념 구성 측면에서 뛰어난 성능을 입증하였다.