8일 전
VideoFusion: 고품질 영상 생성을 위한 분해된 확산 모델
Zhengxiong Luo, Dayou Chen, Yingya Zhang, Yan Huang, Liang Wang, Yujun Shen, Deli Zhao, Jingren Zhou, Tieniu Tan

초록
확산 확률 모델(DPM)은 데이터 포인트에 점진적으로 노이즈를 추가함으로써 전방 확산 과정을 구성하고, 이를 역으로 복원하는 과정을 학습함으로써 새로운 샘플을 생성하는 방식으로, 복잡한 데이터 분포를 효과적으로 처리할 수 있음이 입증되었다. 최근 이미지 합성 분야에서 큰 성공을 거두었음에도 불구하고, 고차원 데이터 공간으로 인해 영상 생성에 DPM을 적용하는 것은 여전히 도전 과제이다. 기존의 방법들은 일반적으로 표준 확산 과정을 채택하여 동일한 영상 클립 내의 프레임들이 서로 독립적인 노이즈로 파괴되도록 하며, 이는 콘텐츠의 중복성과 시간적 상관관계를 무시하게 된다. 본 연구에서는 각 프레임의 노이즈를 모든 프레임에 공유되는 기본 노이즈(base noise)와 시간 축에 따라 변화하는 잔여 노이즈(residual noise)로 분해함으로써 분해된 확산 과정을 제안한다. 복원 처리 파이프라인은 이러한 노이즈 분해 구조에 따라 상호 연합 학습되는 두 개의 네트워크를 활용한다. 다양한 데이터셋에서 수행된 실험 결과, 본 연구에서 제안하는 방법, 즉 VideoFusion이 GAN 기반 및 확산 기반 대안들보다 고품질 영상 생성 측면에서 우수한 성능을 보임을 확인하였다. 또한 본 연구에서는 분해된 수식 구조가 사전 훈련된 이미지 확산 모델을 활용할 수 있음을 보이며, 텍스트 조건부 영상 생성에도 효과적으로 기여함을 입증하였다.